Відеокарти. Знайомимося з графічним процесором GP104 Pascal карти

2016 вже закінчується, але його внесок в ігроіндустрію залишиться з нами надовго. По-перше, відеокарти з червоного табору отримали несподівано вдале оновлення в середньому ціновому діапазоні, ну а по-друге NVIDIA вкотре довела, що недаремно займає 70% ринку. Maxwell'и були хороші, GTX 970 по праву вважалася однією з найкращих карток за свої гроші, але Pascal – зовсім інша річ.

Нове покоління заліза в особі GTX 1080 і 1070 буквально поховало результати минулорічних систем і ринок флагманського заліза, а «молодші» лінійки в особі GTX 1060 і 1050 закріпили успіх у більш доступних сегментах. Власники GTX980Ti та інших Titan'ів ридають крокодилячими сльозами: їхні убер-гармати за багато тисяч рублів разом втратили 50% вартості та 100% понтів. Сама NVIDIA заявляє, що 1080 швидше, ніж торішній TitanX, 1070 легко «навалює» 980Ti, а порівняно бюджетна 1060 зробить боляче власникам решти всіх карток.

Чи так це, звідки ростуть ноги високої продуктивності і що з цим усім робити напередодні свят і раптових фінансових радощів, а також чим саме порадувати себе, можна дізнатися в цій довгій і трохи занудній статті.

Компанію Nvidia можна любити або… не любити, але заперечувати те, що саме вона на даний момент є лідером у галузі відеокартобудування стане лише влучник із альтернативного всесвіту. Так як Vega від AMD ще не анонсована, флагманські RX на Polaris ми так і не побачили, а R9 Fury з її 4 Гб експериментальної пам'яті відверто не може вважатися перспективною карткою (VR і 4K, все ж, захочуть трохи більше, чим у неї є) – маємо що маємо. Поки 1080 Ti та умовні RX 490, RX Fury та RX 580 є лише чутками та очікуваннями, у нас з вами є час розібратися в поточній лінійці NVIDIA та подивитися, чого досягла компанія за останні роки.

Бардак та історія походження Pascal'я

NVIDIA регулярно дає приводи "не любити себе". Історія з GTX 970 та її "3.5 Гб пам'яті", "NVIDIA, Fuck you!" від Лінуса Торвальдса, повна порнографія в лінійках десктопної графіки, відмова від роботи з безкоштовною і більш поширеною системою FreeSync на користь своєї пропрієтарщини… Загалом, приводів вистачає. Один із найбільш дратівливих особисто мене – це те, що було з минулими двома поколіннями відеокарт. Якщо брати грубу характеристику, то сучасні графічні процесори пішли з часів підтримки DX10. А якщо шукати «дідуся» 10-ї серії сьогодні, то початок сучасної архітектури буде в районі 400-ї серії відеоприскорювачів та архітектури Fermi. Саме в ньому остаточно сформувалася ідея блокової конструкції з т.зв. "ядер CUDA" у термінології NVIDIA.

Fermi

Якщо відеокарти 8000-ї, 9000-ї та 200-ї серій були першими кроками в освоєння самого поняття, «сучасної архітектури» з універсальними шейдерними процесорами (як у AMD, так), то 400-а серія вже була максимально схожа на те, що ми бачимо в якій-небудь 1070. Так, у Fermi залишився невеликий Legacy-милиця від минулих поколінь: шейдерний блок працював на подвоєній частоті ядра, що відповідав за розрахунок геометрії, але загальна картинка у якоїсь GTX 480 не сильно відрізняється від якої- 780-й, мультипроцесори SM об'єднані в кластери, кластери спілкуються через загальний кеш з контролерами пам'яті, а результати роботи виводить загальний для кластера блок растеризації:


Блок-схема процесора GF100, використовуваного GTX 480.

У 500-й серії був все той же Fermi, трохи покращений "всередині" і з меншою кількістю шлюбу, так що топові рішення отримали 512 CUDA-ядерів замість 480 у попереднього покоління. Візуально ж блок-схеми взагалі здаються близнюками:


GF110 – серце GTX 580.

Подекуди піднаростили частоти, трохи змінили дизайн самого чіпа, ніякої революції не було. Ті ж 40 нм техпроцес і 1.5 ГБ відеопам'яті на 384-бітній шині.

Kepler

З приходом архітектури Kepler багато що змінилося. Можна сказати, що саме це покоління дало відеокарт NVIDIA той вектор розвитку, який призвів до виникнення поточних моделей. Змінилася не лише архітектура GPU, а й сама кухня розробки нового заліза усередині NVIDIA. Якщо Fermi був спрямований на пошук рішення, яке забезпечить високу продуктивність, Kepler зробив ставку на енергоефективність, розумне використання ресурсів, високі частоти і простоту оптимізації ігрового двигуна під можливості високопродуктивної архітектури.

У дизайні GPU були зроблені серйозні зміни: за основу взяли не «флагманський» GF100/GF110, а «бюджетний» GF104/GF114, яка використовувалася в одній із найпопулярніших карток того часу – GTX 460.


Загальна архітектура процесора стала простішою за рахунок використання всього двох великих блоків із чотирма уніфікованими модулями шейдерних мультипроцесорів. Виглядало розведення нових флагманів приблизно так:


GK104, встановлений у GTX 680.

Як ви бачите, кожен з обчислювальних блоків суттєво додав у вазі щодо минулої архітектури і був названий SMX. Порівняйте будову блоку з тим, що зображено вище, у розділі Fermi.


Мультипроцесор SMX графічного процесора GK104

Шестисота серія не мала відеокарт на повноцінному процесорі, що містить шість блоків обчислювальних модулів, флагманом була GTX 680 з встановленим GK104, а крутіше за неї - тільки «двоголова» 690-а, на якій було розведено просто два процесори з усією необхідною обв'язкою та пам'яттю. Через рік флагман GTX 680 з незначними змінами перетворився на GTX 770, а вінцем еволюції архітектури Kepler стали відеокарти на базі кристала GK110: GTX Titan і Titan Z, 780Ti і звичайна 780. Всередині - все ті ж 28 нанометрів. дісталося консьюмерським відеокартам на базі GK110) – продуктивність з операціями подвійної точності.

Maxwell

Першою відеокартою на архітектурі Maxwell стала NVIDIA GTX 750Ti. Трохи пізніше з'явилися її обрізки в особі GTX 750 і 745 (постачалася лише як вбудоване рішення), і на момент появи молодші картки реально струсили ринок недорогих відеоприскорювачів. Нова архітектура обкатувалася на чіпі GK107: крихітному шматочку майбутніх флагманів з величезними радіаторами та лякаючою ціною. Виглядав він приблизно так:


Так, всього один обчислювальний блок, але як складніше він влаштований, ніж у попередника, порівняйте самі:


Замість великого блоку SMX, який використовувався як базова «будівельна цегла» у створенні GPU використовуються нові, компактніші блоки SMM. Базові обчислювальні блоки Kepler'а були хорошими, але страждали від поганого завантаження потужностей - банальний голод інструкцій: розкидати інструкції за великою кількістю виконавчих елементів система не могла. Приблизно ті ж проблеми були у Pentium 4: потужність простоювала, а помилка у прогнозуванні розгалужень коштувала дуже дорого. У Maxwell'і кожен обчислювальний модуль розділили на чотири частини, виділивши кожній із них власний буфер інструкцій та планувальник варпів – однотипних операцій над групою потоків. В результаті ефективність зросла, а самі графічні процесори стали гнучкішими, ніж їхні попередники, а найголовніше - ціною малої крові та досить простого кристала відпрацювали нову архітектуру. Історія розвивається за спіраллю, хе-хе.

Найбільше від нововведень виграли мобільні рішення: площа кристала зросла на чверть, а кількість виконавчих блоків мультипроцесорів – майже вдвічі. Як на зло, саме 700-та та 800-та серії влаштували основний бардак у класифікації. Усередині однієї лише 700 зустрічалися відеокарти на архітектурах Kepler, Maxwell і навіть Fermi! Саме тому десктопні Maxwell'и, щоб усунутись від мішанини у попередніх поколіннях, отримали загальну серію 900, від якої згодом відбрунькувались мобільні картки GTX 9xx M.

Pascal – логічний розвиток архітектури Maxwell

Те, що було закладено в Kepler'і і продовжено в поколінні Maxwell, залишилося і в Pascal'ях: перші споживчі відеокарти випущені на базі не найбільшого чіпа GP104, який складається з чотирьох кластерів обробки графіки. Повнорозмірний, шестикластерний GP100 дістався дорогому напівпрофесійному GPU під маркою TITAN X. Втім, навіть обрізана 1080 запалює так, що минулим поколінням стає погано.

Поліпшення продуктивності

Основа основ

Maxwell став фундаментом нової архітектури, діаграма порівняних процесорів (GM104 та GP104) виглядає майже однаково, основна відмінність – кількість упакованих у кластери мультипроцесорів. У Kepler'і (700-е покоління) було два великі мультипроцесори SMX, які розділили на 4 частини кожен у Maxwell'і, забезпечивши необхідною обв'язкою (змінивши назву на SMM). У Pascal'і до наявних восьми в блоці додали ще два, тому їх стало 10, а абревіатуру в черговий раз перебили: тепер поодинокі мультипроцесори знову називаються SM.


В іншому - повна візуальна схожість. Щоправда, всередині змін стало ще більше.

Двигун прогресу

Змін усередині блоку мультипроцесорів непристойно багато. Щоб не вдаватися в зовсім занудні подробиці того, що переробили, як оптимізували і як було раніше, опишу зміни зовсім коротко, а то деякі й так позіхають.

Насамперед Pascal'ям поправили ту частину, яка відповідає за геометричну складову картинки. Це необхідно для мультимоніторних конфігурацій та роботи з VR-шоломами: за належної підтримки з боку ігрового движка (а зусиллями NVIDIA ця підтримка швидко з'явиться) відеокарта може один раз порахувати геометрію та отримати кілька проекцій геометрії для кожного з екранів. Це істотно знижує навантаження в VR не тільки в галузі роботи з трикутниками (тут приріст просто дворазовий), а й у роботі з піксельною складовою.

Умовна 980Ti буде рахувати геометрію двічі (для кожного ока), а потім заповнювати текстурами і виконувати пост-обробку для кожного із зображень, обробивши в сумі близько 4.2 мільйона крапок, з яких реально використовуватиметься близько 70%, решта буде відрізано або потрапить до області , яка просто не відображається для кожного з очей.

1080 обробить геометрію один раз, а пікселі, які не потраплять у підсумкове зображення просто не розраховуватимуться.


З піксельною складовою все, насправді, ще крутіше. Так як нарощування пропускної спроможності пам'яті можна вести тільки по двох фронтах (збільшення частоти і пропускної спроможності за такт), і обидва способи коштують грошей, а «голод» GPU в частині пам'яті все виразніше виражений з роками через зростання дозволу та розвитку VR залишається покращувати «безкоштовні» методи збільшення пропускної спроможності. Якщо не можна розширити шину та підняти частоту – треба стиснути дані. У попередніх поколіннях апаратне стиснення вже було впроваджено, але Pascal його вивели на новий рівень. Знову ж таки, обійдемося без нудної математики, і візьмемо готовий приклад від NVIDIA. Зліва – Maxwell, праворуч – Pascal, залиті рожевим кольором ті точки, чия колірна складова піддавалася стиску без втрат якості.


Замість передачі конкретних тайлів 8х8 пікселів, у пам'яті знаходиться «середній» колір + матриця відхилень від нього, такі дані займає від ½ до ⅛ обсягу вихідних. У реальних завданнях навантаження на підсистему пам'яті знизилося від 10 до 30%, залежно від кількості градієнтів та рівномірності заливок у складних сценах на екрані.


Цього інженерам здалося мало, і для флагманської відеокарти (GTX 1080) використано пам'ять з підвищеною пропускною здатністю: GDDR5X передає вдвічі більше біт даних (не інструкцій) за такт, і видає в піку більше 10 Гбіт/с. Передача даних із такою божевільною швидкістю зажадала цілком нової топології розведення пам'яті на платі, а сумі ефективність роботи з пам'яттю зросла на 60-70% проти флагманами минулого покоління.

Зменшення затримок та простою потужностей

Відеокарти давно займаються не лише обробкою графіки, а й супутніми обчисленнями. Фізика часто прив'язана до кадрів анімації і чудово паралеліться, а значить, набагато ефективніше вважається на GPU. Але найбільшим генератором проблем останнім часом стала VR-індустрія. Багато ігрових движків, методології розробки та купи інших технологій, що використовуються для роботи з графікою просто не були розраховані на VR, випадок переміщення камери або зміни положення голови користувача в процесі малювання кадру просто не оброблявся. Якщо залишити все як є, то розсинхронізація відеопотоку і ваших рухів викликатиме напади морської хвороби і просто заважатиме зануренню в ігровий світ, а значить «неправильні» кадри просто доводиться викидати після малювання і розпочинати роботу спочатку. А це – нові затримки у виведенні картинки на дисплей. Позитивним чином продуктивності це не позначається.

У Pascal'і врахували цю проблему та впровадили динамічне балансування навантаження та можливість асинхронних переривань: тепер виконавчі блоки можуть або перервати поточне завдання (зберігши результати роботи в кеш) для обробки більш термінових завдань, або просто скинути недомальований кадр та зайнятися новим, значно знижуючи затримки у формуванні зображення. Основний бенефіціар тут, само собою, VR та ігри, але і з розрахунками загального призначення дана технологія може допомогти: симуляція зіткнення часток отримала приріст продуктивності 10-20%.

Boost 3.0

Автоматичний розгін відеокарти NVIDIA отримали досить давно, ще у 700-му поколінні на базі архітектури Kepler. У Maxwell'і розгін покращили, але він все одно був м'яко кажучи так собі: так, відеокарта працювала трохи швидше, поки це дозволяв теплопакет, зашиті із заводу додаткові 20-30 мегагерц по ядру та 50-100 по пам'яті давали приріст, але невеликий . Працювало це приблизно так:


Навіть якщо за температурою GPU був запас, продуктивність не зростала. З приходом Pascal інженери перетрусили і це запорошене болото. Boost 3.0 працює за трьома напрямками: аналіз температури, підвищення тактової частоти та підвищення напруги на кристалі. Тепер з GPU вичавлюються всі соки: стандартні драйвера NVIDIA цього не роблять, а ось софт вендорів дозволяє в один клік побудувати профільну криву, яка враховуватиме якість конкретно вашого екземпляра відеокарти.

Однією з перших на цій ниві стала компанія EVGA, її утиліта Precision XOC має сертифікований сканер NVIDIA, який послідовно перебирає весь діапазон температур, частот і напруг, домагаючись максимальної продуктивності на всіх режимах.

Додайте сюди новий техпроцес, високошвидкісну пам'ять, всілякі оптимізації та зниження теплопакету чіпів, і результат буде просто непристойним. C 1500 «базових» МГц у GTX 1060 можна вичавити більше 2000 МГц, якщо трапиться гарний екземпляр, а вендор не обладжується з охолодженням.

Поліпшення якості картинки та сприйняття ігрового світу

Продуктивність збільшили по всіх напрямках, але є ряд моментів, в яких якісних змін не було кілька років: як виводиться картинка. І йдеться не про графічні ефекти, їх забезпечують розробники ігор, а про те, що ми бачимо на моніторі і те, як виглядає гра для кінцевого споживача.

Швидка вертикальна синхронізація

Найголовніша фішка Pascal'я - потрійний буфер для виведення кадрів, що забезпечує одночасно наднизькі затримки у відмальовуванні та забезпечення вертикальної синхронізації. В одному буфері зберігається зображення, в іншому - останній відмальований кадр, в третьому - малюється поточний. Прощайте, горизонтальні смуги та розриви кадрів, привіт, висока продуктивність. Затримок, які влаштовує класичний V-Sync, тут немає (оскільки ніхто не стримує продуктивність відеокарти і вона завжди малює з максимально можливою частотою кадру), а на монітор відправляються тільки повністю сформовані кадри. Я думаю, що після нового року напишу окремий великий пост про V-Sync, G-Sync, Free-Sync і ось цей новий алгоритм швидкої синхронізації від Nvidia, надто багато подробиць.

Нормальні скріншоти

Ні, ті скрин, що є зараз - це просто ганьба. Майже всі ігри використовують купу технологій, щоб картинка в русі вражала і захоплювала дух, і скріншоти стали реальним кошмаром: замість приголомшливо реалістичної картинки, що складається з анімації, спеціальних ефектів, що експлуатують особливості людського зору, ви бачите якесь незграбне незграбне що з дивними кольорами і абсолютно неживою картинкою.

Нова технологія NVIDIA Ansel вирішує проблему зі скрін. Так, її імплементація вимагає інтеграцію спеціального коду від розробників ігор, але реальних маніпуляцій там мінімум, а ось прибуток величезний. Ansel вміє ставити гру на паузу, передає керування камерою у ваші руки, а далі – простір для творчості. Можна просто зробити кадр без GUI і улюбленому ракурсі.


Можна відобразити наявну сцену в ультра-високій роздільній здатності, знімати 360-градусні панорами, зшивати їх у площину або залишати у тривимірному вигляді для перегляду у VR-шоломі. Зробити фотографію з 16 бітами на канал, зберегти її у своєрідному RAW-файлі, а далі грати з екпозицією, балансом білого та іншими налаштуваннями так, що скріншоти знову стануть привабливими. Чекаємо на тонну крутого контенту від фанатів ігор через рік-другий.

Обробка звуку на відеокарті

Нові бібліотеки NVIDIA Gameworks додають безліч фіч, доступних розробникам. В основному вони націлені на VR і прискорення різних обчислень, а також підвищення якості картинки, але одна з фіч найбільш цікава і гідна згадки. VRWorks Audio виводить роботу зі звуком на принципово новий рівень, вважаючи звук не за банальними усередненими формулами, що залежать від відстані та товщини перешкоди, але виконує повне трасування звукового сигналу, з усіма відображеннями оточення, реверберацією та поглинанням звуку в різних матеріалах. NVIDIA має хороший відео-приклад на тему того, як працює ця технологія:


Дивитися краще в навушниках

Чисто теоретично, ніщо не заважає запускати таку симуляцію на Maxwell'і, але оптимізації щодо асинхронного виконання інструкцій і нова система переривань, закладені в Pascal'ях, дозволяє проводити розрахунки, не сильно впливаючи на кадрову частоту.

Паскаль у сумі

Змін насправді ще більше, і багато з них настільки глибоко в архітектурі, що по кожному з них можна написати величезну статтю. Ключові нововведення - покращений дизайн самих чіпів, оптимізація на найнижчому рівні в частині геометрії та асинхронної роботи з повною обробкою переривань, безліч фіч, заточених на роботу з високими дозволами та VR, і, зрозуміло, шалені частоти, які не снилися минулим поколінням відеокарт. Два роки тому 780 Ti ледве перетнула рубіж в 1 ГГц, сьогодні 1080 у ряді випадків працює на двох: і тут заслуга не тільки в зменшеному з 28 нм до 16 або 14 нм техпроцесі: багато речей оптимізовано на найнижчому рівні, починаючи з дизайну транзисторів , закінчуючи їх топологією та обв'язкою усередині самого чіпа.

Для кожного окремого випадку

Лінійка відеокарт NVIDIA 10-ї серії вийшла по-справжньому збалансованою, і досить щільно покриває всі ігрові юз-кейси, від варіанта «в стратегії та діаблі грати» до «хочу топ-ігри в 4k». Ігрові тести обрані за однією простою методикою: охопити якнайбільший діапазон випробувань якомога меншим набором тестів. BF1 - відмінний приклад хорошої оптимізації та дозволяє порівняти в однакових умовах продуктивність DX11 проти DX12. DOOM обраний з тієї ж причини, тільки дозволяє порівняти OpenGL та Vulkan. Третій «Відьмак» тут виступає в ролі так-себе-оптимізованої-іграшки, в якій максимальні налаштування графіки дають прикрутити будь-якому флагману просто через говнокод. Він використовує класичний DX11, який перевірений часом і відмінно відпрацьований у драйверах та знаком гравцям. Overwatch віддується за всі «турнірні» ігри, в яких добре оптимізований код, за фактом цікавий тим, наскільки високий середній FPS в не дуже важкій з графічної точки зору грі, заточеної на роботу в «середньому» конфізі, доступному по всьому світу.

Відразу дам деякі спільні коментарі: Vulkan дуже ненажерливий у плані відеопам'яті, для нього ця характеристика - один із головних показників, і ви побачите відображення цієї тези в бенчмарках. DX12 на картках AMD поводиться значно краще, ніж у NVIDIA, якщо «зелені» в середньому показують просідання по FPS на нових API, то «червоні», навпаки, приріст.

Молодший дивізіон

GTX 1050

Молодша NVIDIA (без літер Ti) не така цікава, як її заряджена сестриця з літерами Ti. Її доля – ігрове рішення для MOBA-ігор, стратегій, турнірних шутерів та інших ігор, де деталізація та якість картинки мало кого цікавить, а стабільна частота кадрів за мінімальні гроші – те, що лікар прописав.


На всіх картинках відсутня частота ядра, оскільки вона індивідуальна кожному за примірника: 1050 без доп. харчування може не гнатися, а її сестра з 6-pin роз'єм легко візьме умовних 1.9 ГГц. Щодо живлення та довжини зображені найбільш популярні варіанти, завжди можна знайти відеокарту з іншою схемою або іншим охолодженням, яке не впишеться у зазначені «нормативи».

DOOM 2016 (1080p, ULTRA): OpenGL – 68 FPS, Vulkan – 55 FPS;
Witcher 3: Wild Hunt (1080p, MAX, HairWorks Off): DX11 - 38 FPS;
Battlefield 1 (1080p, ULTRA): DX11 – 49 FPS, DX12 – 40 FPS;
Overwatch (1080p, ULTRA): DX11 – 93 FPS;

У GTX 1050 встановлений графічний процесор GP107, який дістався їй від старшої карти з невеликим обрізанням функціональних блоків. 2 ГБ відеопам'яті не дадуть розгулятися, але для кіберспортивних дисциплін та гри в якісь танки вона відмінно підійде, благо ціна на молодшу картку починається з 9.5 тисяч рублів. Додаткове харчування не потрібне, відеокарті достатньо 75 Ватт, що надходять з материнської плати за слотом PCI-Express. Правда, в цьому ціновому сегменті є ще й AMD Radeon RX460, який з тими ж 2 ГБ пам'яті коштує дешевше, а за якістю роботи майже не поступається, а приблизно ті ж гроші можна отримати RX460, але у версії на 4 ГБ. Не те що вони йому сильно допомагали, але який запас на майбутнє. Вибір вендора не такий важливий, можна брати те, що є в наявності і не відтягує кишеню зайвою тисячею рублів, яку краще витратити на заповітні букви Ti.

GTX 1050 Ti

Близько 10 тисяч за звичайну 1050 – непогано, але за заряджену (або повноцінну, називайте як хочете) версію просять не набагато більше (в середньому, на 1-1.5 тисячі більше), а ось її начинка набагато цікавіше. До речі, вся серія 1050 випускається не з обрізки/відбракування «великих» чіпів, які не годяться для 1060, а як цілком самостійний продукт. У неї менше техпроцес (14 нм), інший завод (кристали вирощує фабрика Samsung), і є дуже цікаві екземпляри з дод. харчуванням: тепловий пакет і базове споживання в неї все ті ж 75 Вт, а ось розгінний потенціал і можливість вийти за межі дозволеного - зовсім інші.


Якщо ви продовжуєте грати на дозволі FullHD (1920x1080), не плануєте апгрейду, а решта заліза в межах 3-5 річної давності - відмінний спосіб підняти продуктивність в іграшках малою кров'ю. Орієнтуватися варто на рішення ASUS та MSI з додатковим 6-піновим харчуванням, непогані варіанти від Gigabyte, але ціна вже не так тішить.

DOOM 2016 (1080p, ULTRA): OpenGL – 83 FPS, Vulkan – 78 FPS;
Witcher 3: Wild Hunt (1080p, MAX, HairWorks Off): DX11 - 44 FPS;
Battlefield 1 (1080p, ULTRA): DX11 – 58 FPS, DX12 – 50 FPS;
Overwatch (1080p, ULTRA): DX11 – 104 FPS.

Середній дивізіон

Відеокарти 60-ї лінійки давно вважалися оптимальним вибором для тих, хто не хоче витрачати багато грошей, і водночас грати на високих налаштуваннях графіки на все, що вийде в найближчі пару років. Почалося це ще з часів GTX 260, у якої було дві версії (простіше, 192 потокових процесора, і пожирніше, 216 «камінців»), тривало в 400, 500, і 700-му поколіннях, і ось NVIDIA знову потрапила в практично ідеальне поєднання ціни та якості. Знову доступні дві версії "середнячка": GTX 1060 на 3 і 6 ГБ відеопам'яті відрізняються не тільки обсягом доступної оперативної пам'яті, але і продуктивністю.

GTX 1060 3GB

Королева кіберспорту. Помірна ціна, приголомшлива продуктивність для FullHD (а в кіберспорті рідко використовують роздільну здатність вище: там результати важливіші за красивості), розумний обсяг пам'яті (3 ГБ, на хвилиночку, стояло два роки тому у флагмані GTX 780 Ti, який коштував непристойних грошей). У плані продуктивності молодша 1060 легко навалює торішньої GTX 970 з пам'яті приснопам'ятною 3.5 ГБ, і легко тягає за вуха позаминулорічний суперфлагман 780 Ti.


DOOM 2016 (1080p, ULTRA): OpenGL – 117 FPS, Vulkan – 87 FPS;
Witcher 3: Wild Hunt (1080p, MAX, HairWorks Off): DX11 - 70 FPS;
Battlefield 1 (1080p, ULTRA): DX11 – 92 FPS, DX12 – 85 FPS;
Overwatch (1080p, ULTRA): DX11 - 93 FPS.

Тут безперечний лідер по співвідношенню ціни та вихлопу - версія від MSI. Непогані частоти, безшумна система охолодження та осудні габарити. За неї просять всього нічого, в районі 15 тисяч рублів.

GTX 1060 6GB

Шестигігабайтна версія - бюджетний квиток у VR та високі дозволи. Вона не голодуватиме по пам'яті, трохи швидше у всіх тестах і впевнено виграватиме у GTX 980 там, де торішній відеокарті стане мало 4 ГБ відеопам'яті.


DOOM 2016 (1080p, ULTRA): OpenGL – 117 FPS, Vulkan – 121 FPS;
The Witcher 3: Wild Hunt (1080p, MAX, HairWorks Off): DX11 – 73 FPS;
Battlefield 1 (1080p, ULTRA): DX11 – 94 FPS, DX12 – 90 FPS;
Overwatch (1080p, ULTRA): DX11 – 166 FPS.

Хочеться ще раз відзначити поведінку відеокарт при використанні API Vulkan. 1050 з 2 ГБ пам'яті - просідання по FPS. 1050 Ti з 4 ГБ – майже врівень. 1060 3 ГБ - просідання. 1060 6 Гб – зростання результатів. Тенденція, гадаю, зрозуміла: для Vulkan треба 4+ ГБ відеопам'яті.

Біда в тому, що обидві 1060 – відеокарти не маленькі. Начебто, і теплопакет розумний, і плата там реально невелика, але багато вендори вирішили просто уніфікувати систему охолодження між 1080, 1070 і 1060. але товщі (2.5 слоти). Вибирайте уважніше.

На жаль, додаткові 3 ГБ відеопам'яті та розблокований обчислювальний блок обійдуться вам у ~5-6 тисяч рублів зверху до ціни 3-гігової версії. В даному випадку найцікавіші варіанти за ціною та якістю у Palit. ASUS випустив монструозні 28-сантиметрові системи охолодження, які ліпить і на 1080, і на 1070, і на 1060 і така відеокарта мало куди поміститься, версії без заводського розгону коштують майже стільки ж, а вихлоп менше, а за порівняно компактні MSI просять більше , ніж у конкурентів при приблизно тому ж рівні якості та заводського розгону.

Вища ліга

Грати на всі гроші у 2016 році складно. Так, 1080 - шалено крута, але перфекціоністи і залізничники знають, що NVIDIA приховує існування супер-флагмана 1080 Ti, який повинен бути неймовірно крутий. Перші специфікації вже просочуються в мережу, і зрозуміло, що зелені чекають кроку від червоно-білих: якоїсь убер-гармати, яку миттєво можна буде поставити на місце новим королем 3D-графіки, великою і могутньою GTX 1080 Ti. Ну а поки що маємо що маємо.

GTX 1070

Минулорічні пригоди мегапопулярної GTX 970 та її не-чесних-4-гігабайт-пам'яті активно розбиралися та обсмоктувались по всьому інтернету. Це не завадило їй стати найпопулярнішою ігровою відеокартою у світі. Напередодні зміни року на календарі вона утримує перше місце у Steam Hardware & Software Survey. Воно й зрозуміло: поєднання ціни та продуктивності було просто ідеальним. І якщо ви пропустили торішній апгрейд, а 1060 здається вам недостатньо крутий – GTX 1070 ваш вибір.

Дозволи 2560х1440 та 3840х2160 відеокарта перетравлює на ура. Система розгону Boost 3.0 постарається підкидати дров тоді, коли зростає навантаження на GPU (тобто в найважчих сценах, коли FPS просідає під натиском спецефектів), розганяючи процесор відеокарти до дивовижних 2100 МГц. Пам'ять легко отримує 15-18% ефективної частоти понад заводські показники. Монструозна штука.


Увага, всі тести проведені в 2.5k (2560x1440):

DOOM 2016 (1440p, ULTRA): OpenGL – 91 FPS, Vulkan – 78 FPS;
Witcher 3: Wild Hunt (1440p, MAX, HairWorks Off): DX11 - 73 FPS;
Battlefield 1 (1440p, ULTRA): DX11 – 91 FPS, DX12 – 83 FPS;
Overwatch (1440p, ULTRA): DX11 – 142 FPS.

Зрозуміло, витягнути ультра-налаштування в 4k і ніколи не просідати нижче 60 кадрів в секунду не під силу ні цій картці, ні 1080, але грати на умовних «високих» налаштуваннях, відключивши або трохи знизивши ненажерливі фічі можна в повному дозволі, а у плані реальної продуктивності відеокарта легко задає спеку навіть минулорічної 980 Ti, яка коштувала майже вдвічі дорожче. Найцікавіший варіант у Gigabyte: вони примудрилися запхати повноцінну 1070 у корпус ITX-стандарту. Дякуємо скромному теплопакету та енергоефективному дизайну. Ціни на картки стартують із 29-30 тисяч рублів за смачні варіанти.

GTX 1080

Так, флагман не має букв Ti. Так, він використовує не найбільший GPU, доступний NVIDIA. Так, тут немає крутої пам'яті HBM 2, а відеокарта не виглядає, як «Зірка смерті» або, в крайньому разі, імперський крейсер класу «Зоряний руйнівник». І так, це найкрутіша ігрова відеокарта, яка зараз є. Одна одна бере і запускає DOOM у роздільній здатності 5k3k з 60 кадрами в секунду на ультра-налаштуваннях. Їй підвладні все нові іграшки, і найближчі рік-два вона не матиме проблем: поки нові технології, закладені в Pascal, стануть поширеними, поки ігрові движки навчаться ефективно завантажувати наявні ресурси… Так, через пару років ми говоритимемо: «Ось, подивіться на GTX 1260, пару років тому для гри з такими налаштуваннями вам потрібен був флагман», а поки що найкраща з кращих відеокарт доступна перед новим роком за дуже розумною ціною.


Увага, всі тести проведені в 4k (3840x2160):

DOOM 2016 (2160p, ULTRA): OpenGL – 54 FPS, Vulkan – 78 FPS;
Witcher 3: Wild Hunt (2160p, MAX, HairWorks Off): DX11 - 55 FPS;
Battlefield 1 (2160p, ULTRA): DX11 – 65 FPS, DX12 – 59 FPS;
Overwatch (2160p, ULTRA): DX11 - 93 FPS.

Залишиться тільки вирішити: воно вам треба, або можна заощадити і взяти 1070. Грати на «ультрі» або «високих» налаштуваннях особливої ​​різниці немає, благо сучасні двигуни чудово малюють картинку у високій якості навіть на середніх налаштуваннях: зрештою, у нас з ви не мильні консолі, які не можуть забезпечити достатньо продуктивності для чесного 4k і стабільних 60 кадрів в секунду.

Якщо відкинути найдешевші варіанти, то краще поєднання ціни та якості знову буде у Palit у варіанті GameRock (близько 43-45 тисяч рублів): так, система охолодження «товста», 2.5 слота, але відеокарта коротша за конкурентів, а пару з 1080 ставлять рідко . SLI потихеньку вмирає, і навіть цілюща ін'єкція високошвидкісних мостів його не особливо рятує. Варіант ASUS ROG непоганий, якщо у вас встановлено безліч додаткових. Девайсів і перекривати зайві слоти розширення вам не хочеться: їхня відеокарта в товщину рівно 2 слоти, але вимагає 29 сантиметрів вільного простору від задньої стінки до кошика з жорсткими дисками. Цікаво, чи підуть Gigabyte випуск і цього монстра в ITX-форматі?

Підсумки

Нові відеокарти NVIDIA просто поховали ринок Б/У заліза. На ньому виживає лише GTX 970, яку можна урвати за 10-12 тисяч рублів. Потенційним покупцям уживаних 7970 і R9 280 часто нема куди її поставити і просто не прогодувати, а багато варіантів з вторинного ринку просто безперспективні, і як дешевий апгрейд на пару років вперед нікуди не годяться: пам'яті мало, нові технології не підтримуються. Принадність нового покоління відеокарт саме в тому, що навіть неоптимізовані під них іграшки йдуть значно бадьоріше, ніж на ветеранах GPU-чартів минулих років, а що буде через рік, коли двигуни ігор навчаться використовувати всю силу нових технологій – і уявити складно.

GTX 1050 та 1050Ti

На жаль, рекомендувати купівлю найдешевшого Pascal'я я не можу. RX 460 зазвичай продається на тисячу-другу дешевше, і якщо у вас бюджет обмежений настільки, що ви берете відеокарту «на останні», то Radeon об'єктивно є цікавішим вкладенням грошей. З іншого боку, 1050 трохи швидше, і якщо ціни у вашому місті на ці дві відеокарти майже не відрізняються – беріть її.

1050Ti, у свою чергу, відмінний варіант для тих, кому сюжет і геймплей важливіший за навороти і реалістичне волосся в носі. У неї немає пляшкового шийки у вигляді 2 ГБ відеопам'яті, вона не «стухне» через рік. Можете доповісти грошей на неї – зробіть це. Відьмак на високих налаштуваннях, GTA V, DOOM, BF 1 – без проблем. Так, доведеться відмовитися від ряду покращень, типу наддовгих тіней, складної тесселяції або «дорогого» прорахунку самозатінення моделей обмеженим трасуванням променів, але в запалі битви ви забудете про ці красивості після 10 хвилин гри, а стабільні 50-60 кадрів в секунду дадуть куди більше ефект занурення, ніж нервові стрибки від 25 до 40, але з налаштуваннями на "максимум".

Якщо у вас коштує якась Radeon 7850, GTX 760 або молодша, відеокарти з 2 ГБ відеопам'яті і менше - можете сміливо змінювати.

GTX 1060

Молодша 1060 порадує тих, кому кадрова частота від 100 FPS важливіша за графічні навороти. Разом з тим, вона дозволить комфортно грати у всі іграшки в FullHD дозволі з високими або максимальними налаштуваннями і стабільними 60 кадрами в секунду, та й за ціною сильно відрізняється від усього, що йде після неї. Старша 1060 з 6 гігабайтами пам'яті – безкомпромісне рішення для FullHD із запасом продуктивності на рік-другий, знайомства з VR та цілком прийнятний кандидат для гри у високих дозволах на середніх налаштуваннях.

Міняти вашу GTX 970 на GTX 1060 сенсу немає, потерпить ще рік. А ось набридлі 960, 770, 780, R9 280X і давніші агрегати можна сміливо оновлювати до 1060.

Топ-сегмент: GTX 1070 та 1080

1070 навряд чи стане такою ж популярною, як GTX 970 (все ж таки, у більшості користувачів цикл оновлення заліза - раз на два роки), але за співвідношенням ціни та якості, безумовно, гідне продовження 70-ї лінійки. Вона просто перемелює ігри на мейнстримовій розпусті 1080р, легко справляється з 2560х1440, витримує поневіряння неоптимізованих 21 до 9, і цілком здатна відображати 4k, нехай і не на максимальних налаштуваннях.


Так, SLI буває таким.

Говоримо «давай, до побачення» всяким 780 Ti, R9 390X та іншим торішнім 980-м, особливо якщо хочемо грати у високій якості. І, так, це найкращий варіант для любителів зібрати пекельну коробку у форматі Mini-ITX і лякати гостей 4k-іграми на 60-70 дюймовому телевізорі, які запускаються на комп'ютері розміром з кавоварку.
gtx 1050 історія відеокарт Додати теги

Згідно з нещодавно опублікованими неофіційними даними, сімейство графічних процесорів на базі архітектури Pascal може стати одним з найбільш повних модельних рядів компанії NVIDIA в останні роки. За кілька місяців фірма представила чотири GPU на основі Pascal і при цьому не збирається зупинятися на досягнутому. За словами глави компанії, далеко не всі мікросхеми Pascal, не кажучи вже про реальні продукти, були представлені. Зважаючи на все, найближчим часом на нас чекають нові анонси.

NVIDIA Pascal: вісім продуктів за чотири місяці

Починаючи з квітня цього року NVIDIA представила чотири мікросхеми на основі Pascal: GP100 з 16 Гбайт пам'яті HBM2, GP102 з підтримкою GDDR5X, GP104 та GP106. При цьому компанія анонсувала вісім продуктів на основі зазначених GPU (якщо не брати до уваги окремі продукти різного роду спеціальні редакції вказаних нижче, а також спеціалізовані пристрої типу DGX-1): GeForce GTX 1080/1070 (GP104), GeForce GTX 1060 (GP106), TITAN X (GP102 + 12 Гбайт GDDR5X), Quadro P5000 (GP104GL + 16 Гбайт GDDR5X), Quadro P6000 (GP102GL + 24 Гбайт GDDR5X), Tesla P100 SXM і Tesla P100 Гіб + 100 PCI.

Хоча чотири GPU і вісім продуктів за чотири місяці це дуже видатне досягнення, помітно, що компанія не представила жодного нового рішення для ноутбуків, а також жодної нової графічної карти дешевше за $250. За словами глави NVIDIA, компанія готує нові GPU на базі Pascal, вони вже існують у кремнії, але на ринок вийдуть лише за деякий час.

NVIDIA: Всі Pascal готові, але не всі представлені

«Ми спроектували, верифікували та розпочали виробництво всіхGPU на базі архітектуриPascal», — сказав Дженсен Хуанг (Jen-Hsun Huang), виконавчий директор NVIDIA, під час телеконференції з інвесторами та фінансовими аналітиками. «Однак ми поки що не представили всі ці графічні процесори».

Нові конфігурації

Втім, інтерес для любителів ігор та ентузіастів продуктивності представляють не стільки GP107, GP108 та внутрішню будову GP102, скільки той факт, що кожна мікросхема Pascal існуватиме щонайменше у двох базових конфігураціях (з точки зору ідентифікатора PCIe ID), який використовує . Це відкриває можливості для створення нових продуктів на базі мікросхем GP100, GP102, GP104 і GP106.

Так, GP104 існує у конфігурації GP104-A та GP104-B, а також у вигляді версій із включеним прискоренням для професійних додатків – GP104GL-A та GP104GL-B. Ми не знаємо, чому саме відповідають літери "A" та "B", але можемо припустити, що "A" позначає мікросхему в максимальній конфігурації. Таким чином, GP104-A може відповідати GeForce GTX 1080, а GP104-B – GeForce GTX 1070.

Беручи до уваги, що мікросхеми GP102 і GP106 також існують у двох конфігураціях (принаймні про це говорять база даних AIDA64 і драйвери NVIDIA), але при цьому на їх базі є лише по одному продукту (GeForce GTX 1060 і TITAN X), ми можемо очікувати появи нових рішень з їхньої основі. Чи будуть ці карти швидше або повільніші за наявні — покаже час. У всякому разі, GP102 може масштабуватися як "вгору" (до 3840 потокових процесорів), так і "вниз". При цьому, зрозуміло, не можна виключати гіпотетичну можливість появи третьої версії GP102-С, якщо вона знадобиться NVIDIA.

Так чи інакше, очевидно, що NVIDIA планує розширювати сімейство графічних карток на базі Pascal. Хоча найближчі плани явно повинні включати мобільні та масові GPU, дуже ймовірно, що в майбутньому нас чекають нові рішення для високопродуктивних ігрових ПК.

ПараметрЗначення
Кодове ім'я чіпаGP104
Технологія виробництва16 нм FinFET
Кількість транзисторів7,2 млрд.
Площа ядра314 мм²
Архітектура
Апаратна підтримка DirectX
Шина пам'яті
1607 (1733) МГц
Обчислювальні блоки20 потокових мультипроцесорів, що включають 2560 скалярних ALU для розрахунків із плаваючою комою в рамках стандарту IEEE 754-2008;
Блоки текстурування160 блоків текстурної адресації та фільтрації з підтримкою FP16- та FP32-компонент у текстурах та підтримкою трилінійної та анізотропної фільтрації для всіх текстурних форматів
Підтримка моніторів
Специфікації референсної відеокарти GeForce GTX 1080
ПараметрЗначення
Частота ядра1607 (1733) МГц
2560
Кількість текстурних блоків160
Кількість блоків блендінгу64
Ефективна частота пам'яті10000 (4×2500) МГц
Тип пам'ятіGDDR5X
Шина пам'яті256-біт
Обсяг пам'яті8 ГБ
320 ГБ/с
близько 9 терафлопс
103 гігапікселів/с
257 гігатекселів/с
ШинаPCI Express 3.0
Роз'єми
Енергоспоживаннядо 180 Вт
Додаткове харчуванняОдин 8-контактний роз'єм
2
Рекомендована ціна$599-699 (США), 54990 руб (Росія)

Нова модель відеокарти GeForce GTX 1080 отримала логічне для першого рішення нової серії GeForce найменування - вона відрізняється від свого прямого попередника лише зміненою цифрою покоління. Новинка не просто замінює в поточній лінійці компанії топові рішення, але й на якийсь час стала флагманом нової серії, доки не випустили Titan X на GPU ще більшої потужності. Нижче її в ієрархії розташовується також анонсована модель GeForce GTX 1070, заснована на урізаній версії чіпа GP104, яку ми ще розглянемо нижче.

Рекомендовані ціни на нову відеоплату Nvidia становлять $599 і $699 для звичайних версій та спеціального видання Founders Edition (див. далі), відповідно, і це досить непогана пропозиція з урахуванням того, що GTX 1080 випереджає не лише GTX 980 Ti, а й Titan X. На сьогодні новинка є найкращим за продуктивністю рішенням на ринку одночіпових відеокарт без будь-яких питань, і при цьому вона коштує дешевше за найпродуктивніші відеокарти попереднього покоління. Поки що конкурента від AMD у GeForce GTX 1080 по суті немає, тому в Nvidia змогли встановити таку ціну, яка їх влаштовує.

Розглянута відеокарта заснована на чіпі GP104, що має 256-бітну шину пам'яті, але новий тип пам'яті GDDR5X працює на дуже високій ефективній частоті в 10 ГГц, що дає високу пікову пропускну здатність в 320 ГБ/с - що майже на рівні GTX 980 Ti з 384 -бітною шиною. Об'єм встановленої на відеокарту пам'яті з такою шиною міг дорівнювати 4 або 8 ГБ, але ставити менший об'єм для такого потужного рішення в сучасних умовах було б безглуздо, тому GTX 1080 цілком логічно отримала 8 ГБ пам'яті, і цього об'єму вистачить для запуску будь-яких 3D- додатків з будь-якими параметрами якості на кілька років вперед.

Друкована плата GeForce GTX 1080 зі зрозумілих причин відрізняється від попередніх PCB компанії. Значення типового енергоспоживання для новинки становить 180 Вт - це трохи вище, ніж у GTX 980, але помітно нижче, ніж менш продуктивні Titan X і GTX 980 Ti. Референсна плата має звичний набір роз'ємів для приєднання пристроїв виведення зображення: один Dual-Link DVI, один HDMI та три DisplayPort.

Референсний дизайн Founders Edition

Ще при анонсі GeForce GTX 1080 на початку травня було оголошено спеціальне видання відеокарти під назвою Founders Edition, що має вищу ціну, порівняно із звичайними відеокартами партнерів компанії. По суті, це видання є референсним дизайном карти та системи охолодження і виробляється воно самою компанією Nvidia. Можна по-різному ставитись до таких варіантів відеокарт, але розроблений інженерами компанії референсний дизайн і вироблена із застосуванням якісних компонентів конструкція має своїх шанувальників.

А ось чи будуть вони віддавати на кілька тисяч рублів більше за відеокарту від самої Nvidia – це питання, відповідь на яке може дати лише практика. У будь-якому випадку, спочатку у продажу з'являться саме референсні відеокарти від Nvidia за підвищеною ціною, і вибирати особливо нема з чого - так буває при кожному анонсі, але референсна GeForce GTX 1080 відрізняється тим, що в такому вигляді її планується продавати протягом усього терміну її життя, до виходу рішень наступного покоління.

У Nvidia вважають, що це видання має свої переваги навіть перед найкращими творами партнерів. Наприклад, двослотовий дизайн кулера дозволяє з легкістю збирати на основі цієї потужної відеокарти як ігрові ПК порівняно невеликого форм-фактора, так і багаточіпові відеосистеми (навіть незважаючи на режим роботи, що не рекомендується компанією, в трьох- і чотиричіповому режимі). GeForce GTX 1080 Founders Edition має деякі переваги у вигляді ефективного кулера з використанням випарної камери та вентилятора, що викидає нагріте повітря з корпусу – це перше таке рішення Nvidia, що споживає менше 250 Вт енергії.

Порівняно з попередніми референсними дизайнами продуктів компанії, схема живлення була модернізована з чотирифазної до п'ятифазної. У Nvidia говорять і про покращені компоненти, на яких заснована новинка, також були знижені електричні перешкоди, що дозволяють покращити стабільність напруги та розгінний потенціал. Внаслідок всіх покращень енергоефективність референсної плати збільшилася на 6% порівняно з GeForce GTX 980.

А для того, щоб відрізнятись від «звичайних» моделей GeForce GTX 1080 і зовні, для Founders Edition розробили незвичайний «рубаний» дизайн корпусу. Який, щоправда, напевно привів також і до ускладнення форми випарної камери та радіатора (див. фото), що можливо і послужило одним із приводів для доплати $100 за таке спеціальне видання. Повторимося, що на початку продажу особливого вибору у покупців не буде, але надалі можна буде вибрати рішення з власним дизайном від одного з партнерів компанії, так і у виконанні самої Nvidia.

Нове покоління графічної архітектури Pascal

Відеокарта GeForce GTX 1080 стала першим рішенням компанії на основі чіпа GP104, що відноситься до нового покоління графічної архітектури Nvidia – Pascal. Хоча нова архітектура взяла в основу рішення, відпрацьовані ще в Maxwell, у ній є і важливі функціональні відмінності, про які ми напишемо далі. Головною зміною з глобальної погляду став новий технологічний процес, яким виконано новий графічний процесор.

Застосування техпроцесу 16 нм FinFET при виробництві графічних процесорів GP104 на фабриках тайванської компанії TSMC дало можливість значно підвищити складність чіпа за збереження порівняно невисокої площі та собівартості. Порівняйте кількість транзисторів і площа чіпів GP104 і GM204 - вони близькі за площею (кристал новинки навіть трохи менше фізично), але чіп архітектури Pascal має помітно більше транзисторів, а відповідно і виконавчих блоків, у тому числі що забезпечують нову функціональність.

З архітектурної точки зору перший ігровий Pascal дуже схожий на аналогічні рішення архітектури Maxwell, хоча є і деякі відмінності. Як і Maxwell, процесори архітектури Pascal будуть мати різну конфігурацію обчислювальних кластерів Graphics Processing Cluster (GPC), потокових мультипроцесорів Streaming Multiprocessor (SM) та контролерів пам'яті. Мультипроцесор SM – це високопаралельний мультипроцесор, який планує та запускає варпи (warp, групи з 32 потоків команд) на CUDA-ядрах та інших виконавчих блоках у мультипроцесорі. Детальні дані щодо пристрою всіх цих блоків ви можете знайти в наших оглядах попередніх рішень компанії Nvidia.

Кожен з мультипроцесорів SM спарений з двигуном PolyMorph Engine, який обробляє текстурні вибірки, тесселяцію, трансформацію, встановлення вершинних атрибутів та корекцію перспективи. На відміну від попередніх рішень компанії, PolyMorph Engine у ​​чіпі GP104 також містить новий блок мультипроектування Simultaneous Multi-Projection, про який ми ще поговоримо нижче. Комбінація мультипроцесора SM з одним двигуном Polymorph Engine зазвичай для Nvidia називається TPC - Texture Processor Cluster.

Усього чіп GP104 у складі GeForce GTX 1080 містить чотири кластери GPC та 20 мультипроцесорів SM, а також вісім контролерів пам'яті, об'єднаних з блоками ROP у кількості 64 штук. Кожен кластер GPC має виділений двигун растеризації і включає п'ять мультипроцесорів SM. Кожен мультипроцесор, у свою чергу, складається з 128 CUDA-ядер, 256 КБ регістрового файлу, 96 КБ пам'яті, що розділяється, 48 КБ кеш-пам'яті першого рівня і восьми текстурних блоків TMU. Тобто всього в GP104 міститься 2560 CUDA-ядер і 160 блоків TMU.

Також графічний процесор, на якому заснована відеокарта GeForce GTX 1080, містить вісім 32-бітних (на відміну від 64-бітних, що використовуються раніше) контролерів пам'яті, що дає нам підсумкову 256-бітну шину пам'яті. До кожного з контролерів пам'яті прив'язано по вісім блоків ROP та 256 КБ кеш-пам'яті другого рівня. Тобто всього чіп GP104 містить 64 блоків ROP і 2048 КБ кеш-пам'яті другого рівня.

Завдяки архітектурним оптимізаціям та новому техпроцесу, перший ігровий Pascal став найенергоефективнішим графічним процесором за весь час. Причому внесок у це є як з боку одного з найдосконаліших технологічних процесів 16 нм FinFET, так і від проведених оптимізації архітектури в Pascal, в порівнянні з Maxwell. Nvidia змогли підвищити тактову частоту навіть більше, ніж вони розраховували при переході на новий техпроцес. GP104 працює на вищій частоті, ніж працював би гіпотетичний GM204, випущений за допомогою техпроцесу 16 нм. Для цього інженерам Nvidia довелося ретельно перевірити та оптимізувати всі вузькі місця попередніх рішень, що не дають розігнатися вище за певний поріг. В результаті, нова модель GeForce GTX 1080 працює більш ніж на 40% підвищеній частоті порівняно з GeForce GTX 980. Але це ще не всі зміни, пов'язані з частотою роботи GPU.

Технологія GPU Boost 3.0

Як ми добре знаємо за попередніми відеокартами компанії Nvidia, у своїх графічних процесорах вони застосовують апаратну технологію GPU Boost, призначену для збільшення робочої тактової частоти GPU в режимах, коли він ще не досяг меж за енергоспоживанням і тепловиділенням. За минулі роки цей алгоритм зазнав багатьох змін, і у відеочіпі архітектури Pascal застосовується вже третє покоління цієї технології – GPU Boost 3.0, основним нововведенням якого стала більш тонка установка турбо-частот, залежно від напруги.

Якщо ви згадаєте принцип роботи попередніх версій технології, то різниця між базовою частотою (гарантоване мінімальне значення частоти, нижче за яке GPU не опускається, як мінімум в іграх) і турбо-частотою була фіксованою. Тобто, турбо-частота завжди була на певну кількість мегагерц вище за базову. У GPU Boost 3.0 з'явилася можливість встановлення зсувів турбо-частот для кожної напруги окремо. Найпростіше це зрозуміти з ілюстрації:

Зліва вказано GPU Boost другої версії, праворуч - третьої, що з'явилася Pascal. Фіксована різниця між базовою та турбо-частотами не давала розкрити можливості GPU повністю, в деяких випадках графічні процесори попередніх поколінь могли працювати швидше на встановленій напрузі, але фіксоване перевищення турбо-частоти не давало цього. У GPU Boost 3.0 така можливість з'явилася і турбо-частота може встановлюватися для кожного з індивідуальних значень напруги, повністю вичавлюючи всі соки з GPU.

Для того, щоб керувати розгоном та встановити криву турбо-частоти, потрібні зручні утиліти. Сама Nvidia цим не займається, але допомагає своїм партнерам створити подібні утиліти для полегшення розгону (в розумних межах, звичайно). Наприклад, нові функціональні можливості GPU Boost 3.0 вже розкриті в EVGA Precision XOC, що включає спеціальні сканер розгону, що автоматично знаходить і встановлює нелінійну різницю між базовою частотою та турбо-частотою для різних значень напруги за допомогою запуску вбудованого тесту продуктивності та стабільності. В результаті у користувача виходить крива турбо-частоти, що ідеально відповідає можливостям конкретного чіпа. Яку, до того ж, можна як завгодно модифікувати у ручному режимі.

Як ви бачите на скріншоті утиліти, на додаток до інформації про GPU та систему, є також налаштування для розгону: Power Target (визначає типове енергоспоживання при розгоні, у відсотках від стандартного), GPU Temp Target (максимально допустима температура ядра), GPU Clock Offset (перевищення над базовою частотою всіх значень напруги), Memory Offset (перевищення частоти відеопам'яті над значенням за замовчуванням), Overvoltage (додаткова можливість підвищення напруги).

Утиліта Precision XOC включає три режими розгону: основний Basic, лінійний Linear та ручний Manual. В основному режимі можна встановити єдине значення перевищення частоти (фіксовану турбо-частоту) над базовою, як це було для попередніх GPU. Лінійний режим дозволяє встановити лінійну зміну частоти від мінімальної до максимальної напруги для GPU. Та й у ручному режимі можна виставити унікальні значення частоти GPU для кожної точки напруги на графіку.

У складі утиліти є спеціальний сканер для автоматичного розгону. Можна або встановити власні рівні частоти або дозволити утиліті Precision XOC просканувати GPU на всіх напругах і знайти максимально стабільні частоти для кожної точки на кривій напруги та частоти повністю автоматично. У процесі сканування Precision XOC поступово додає частоту GPU та перевіряє його роботу на стабільність або появу артефактів, будуючи ідеальну криву частот та напруг, яка буде унікальна для кожного конкретного чіпа.

Цей сканер можна налаштувати під свої власні вимоги, задавши тимчасовий відрізок тестування кожного значення напруги, мінімум і максимум частоти, що перевіряється, і її крок. Зрозуміло, що для досягнення стабільних результатів краще виставити невеликий крок та пристойну тривалість тестування. У процесі тестування може спостерігатись нестабільна робота відеодрайвера та системи, але якщо сканер не зависне, то відновить роботу та продовжить знаходження оптимальних частот.

Новий тип відеопам'яті GDDR5X та покращений стиск

Отже, потужність графічного процесора помітно зросла, а шина пам'яті залишилася лише 256-бітною - чи не буде пропускна здатність пам'яті обмежувати загальну продуктивність і що з цим можна робити? Схоже, що перспективна HBM-пам'ять другого покоління все ще є надто дорогою у виробництві, тому довелося шукати інші варіанти. Ще з моменту появи GDDR5-пам'яті в 2009 році інженери компанії Nvidia досліджували можливості використання нових типів пам'яті. В результаті, розробки прийшли до впровадження нового стандарту пам'яті GDDR5X - найскладнішого і найпросунутішого на сьогоднішній момент стандарту, що дає швидкість передачі 10 Gbps.

Nvidia наводить цікавий приклад того, наскільки це швидко. Між переданими бітами проходить всього 100 пікосекунд - за такий час промінь світла пройде відстань лише в один дюйм (близько 2,5 см). І при використанні GDDR5X-пам'яті ланцюга прийому-передачі даних повинні менш ніж за половину цього часу вибрати значення переданого біта, до того, як буде надіслано наступний - це просто щоб ви розуміли, до чого дійшли сучасні технології.

Щоб домогтися такої швидкості роботи, була потрібна розробка нової архітектури системи введення-виведення даних, яка зажадала кілька років спільної розробки з виробниками чіпів пам'яті. Крім збільшеної швидкості передачі даних, зросла і енергоефективність - чіпи пам'яті стандарту GDDR5X використовують знижену напругу в 1,35 В і зроблені за новими технологіями, що дає те ж споживання енергії при 43% більшій частоті.

Інженерам компанії довелося переробляти лінії передачі даних між ядром GPU та чіпами пам'яті, більше уваги звертати на запобігання втраті та деградації сигналу по всьому шляху від пам'яті до GPU і назад. Так, на наведеній вище ілюстрації показаний захоплений сигнал у вигляді великого симетричного «очі», що говорить про хорошу оптимізацію всього ланцюга та відносну легкість захоплення даних із сигналу. Причому описані вище зміни призвели не тільки до можливості застосування GDDR5X на 10 ГГц, але також і повинні допомогти отримати високу ПСП на майбутніх продуктах, які використовують більш звичну пам'ять GDDR5.

Добре, що більш ніж 40% приросту в ПСП від застосування нової пам'яті ми отримали. Але чи не замало цього? Для подальшого збільшення ефективності використання смуги пропускання пам'яті в Nvidia продовжили покращувати впроваджене ще в попередніх архітектурах стиснення даних. Підсистема пам'яті в GeForce GTX 1080 використовує покращені та кілька нових технік зі стиснення даних без втрат, призначені для зниження вимог до ПСП – вже четверте покоління внутрішньочіпового стискування.

Алгоритми стиснення даних у пам'яті приносять відразу кілька позитивних моментів. Стиснення знижує кількість даних, що записуються в пам'ять, те ж саме стосується даних, що пересилаються з відеопам'яті в кеш-пам'ять другого рівня, що покращує ефективність використання L2-кешу, так як стислий тайл (блок з декількох пікселів фреймбуфера) має менший розмір, ніж стислий. Також зменшується кількість даних, що пересилаються між різними точками, на кшталт текстурного модуля TMU та фреймбуфера.

Конвеєр стиснення даних у GPU використовує кілька алгоритмів, які визначаються залежно від «стисливості» даних - для них підбирається найкращий з наявних алгоритмів. Одним із найважливіших є алгоритм дельта-кодування даних про колір пікселів (delta color compression). Цей спосіб стиснення кодує дані у вигляді різниці між послідовними значеннями замість даних. GPU обчислює різницю в значеннях кольору між пікселями в блоці (тайлі) і зберігає блок як якийсь усереднений колір для всього блоку плюс дані про різницю в значеннях для кожного пікселя. Для графічних даних такий метод зазвичай добре підходить, оскільки колір у межах невеликих тайлів для всіх пікселів часто відрізняється не надто сильно.

Графічний процесор GP104 у складі GeForce GTX 1080 підтримує більшу кількість алгоритмів стиску порівняно з попередніми чіпами архітектури Maxwell. Так, алгоритм стиснення 2:1 став більш ефективним, а на додаток до нього з'явилися два нових алгоритми: режим стиснення 4:1, що підходить для випадків, коли різниця у значенні кольору пікселів блоку дуже невелика, і режим 8:1, що поєднує алгоритм постійного стиснення із співвідношенням 4:1 блоків розміром 2×2 пікселя з двократним стисненням дельти між блоками. Коли стиск зовсім неможливий, воно не використовується.

Втім, насправді останнє буває дуже нечасто. У цьому можна переконатися за прикладами скріншотів з гри Project CARS, які привела Nvidia щоб проілюструвати підвищений ступінь стиснення Pascal. На ілюстраціях пурпурним зафарбовані ті тайли кадрового буфера, які зміг стиснути графічний процесор, а не ті, що піддаються стиску без втрат, залишилися з оригінальним кольором (зверху - Maxwell, знизу - Pascal).

Як бачите, нові алгоритми стиснення у GP104 дійсно працюють набагато краще, ніж у Maxwell. Хоча стара архітектура також змогла стиснути більшість тайлів у сцені, велика кількість трав та дерев по краях, а також деталі машини не піддаються застарілим алгоритмам стиснення. Але при включенні в роботу нових технік в Pascal, стиснутою залишилася дуже невелика кількість ділянок зображення - покращена ефективність.

В результаті поліпшень у стисненні даних, GeForce GTX 1080 здатний значно знизити кількість даних, що пересилаються в кожному кадрі. Якщо говорити про цифри, то покращений стиск економить додатково близько 20% ефективної смуги пропускання пам'яті. Крім більш ніж на 40% підвищеної ПСП у GeForce GTX 1080 щодо GTX 980 від використання GDDR5X-пам'яті, все разом це дає близько 70% приросту в ефективному ПСП, порівняно з моделлю минулого покоління.

Підтримка асинхронних обчислень Async Compute

Більшість сучасних ігор використовують складні обчислення на додаток до графічних. Наприклад, обчислення при розрахунку поведінки фізичних тіл цілком можна проводити не до або після графічних обчислень, а одночасно з ними, оскільки вони не пов'язані один з одним і не залежать один від одного в межах кадру. Також у приклад можна навести постобробку вже відрендерених кадрів та обробку аудіоданих, які також можна виконувати паралельно з рендерингом.

Ще одним яскравим прикладом використання функціональності служить техніка асинхронного спотворення часу (Asynchronous Time Warp), яка використовується в системах віртуальної реальності для того, щоб змінити кадр, що видається відповідно до руху голови гравця прямо перед самим його висновком, перериваючи рендеринг наступного. Подібне асинхронне завантаження потужностей GPU дозволяє підвищити ефективність використання його виконавчих блоків.

Подібні навантаження створюють два нові сценарії використання GPU. Перший з них включає завантаження, що накладаються, так як багато типів завдань не використовують можливості графічних процесорів повністю, і частина ресурсів простоює. У таких випадках можна просто запустити на одному GPU два різні завдання, що розділяють його виконавчі блоки для отримання більш ефективного використання - наприклад PhysX-ефекти, що виконуються спільно з 3D-рендерингом кадру.

Для покращення роботи цього сценарію, в архітектурі Pascal з'явилося динамічне балансування завантаження (dynamic load balancing). У попередній архітектурі Maxwell перевантаження навантаження були виконані у вигляді статичного розподілу ресурсів GPU на графічні та обчислювальні. Такий підхід ефективний за умови, що баланс між двома навантаженнями приблизно відповідає поділу ресурсів та завдання виконуються однаково за часом. Якщо ж неграфічні обчислення виконуються довше графічних, і обидві очікують завершення спільної роботи, то частина GPU, що залишився, буде простоювати, що викличе зниження загальної продуктивності і зведе всю вигоду нанівець. Апаратне динамічне балансування завантаження ж дозволяє використовувати ресурси GPU, що звільнилися, відразу ж як вони стануть доступними - для розуміння наведемо ілюстрацію.

Існують і завдання, критичні до часу виконання, і це другий сценарій асинхронних обчислень. Наприклад, виконання алгоритму асинхронного спотворення часу в VR має завершитись до розгортки (scan out) або кадр буде відкинуто. У такому випадку, GPU повинен підтримувати дуже швидке переривання завдання та перемикання на інше, щоб зняти менш критичне завдання з виконання на GPU, звільнивши його ресурси для критично важливих завдань – це називається preemption.

Одна команда рендерингу від ігрового движка може містити сотні викликів функцій малювання, кожен виклик draw call, у свою чергу, містить сотні трикутників, що обробляються, кожен з яких містить сотні пікселів, які потрібно розрахувати і відмалювати. У традиційному підході на GPU використовується переривання завдань лише на високому рівні, і графічний конвеєр змушений чекати завершення всієї цієї роботи перед перемиканням завдання, що призводить до дуже великих затримок.

Щоб виправити це, в архітектурі Pascal вперше було введено можливість переривання завдання на піксельному рівні – Pixel Level Preemption. Виконавчі блоки графічного процесора Pascal можуть постійно відслідковувати прогрес виконання завдань рендерингу, і коли переривання буде запитано, вони можуть зупинити виконання, зберігши контекст для подальшого завершення, швидко переключившись на інше завдання.

Переривання та перемикання на рівні потоку для обчислювальних операцій працює аналогічно перериванню на піксельному рівні для графічних обчислень. Обчислювальні навантаження складаються з кількох сіток, кожна з яких містить безліч потоків. Коли отримано запит на переривання, потоки, що виконуються на мультипроцесорі, закінчують виконання. Інші блоки зберігають власний стан щоб продовжити з того самого моменту надалі, та GPU переключається на інше завдання. Весь процес перемикання завдань займає менш ніж 100 мікросекунд після того, як потоки, що виконуються, завершують роботу.

Для ігрових навантажень, поєднання переривань на піксельному рівні для графічних і переривання на рівні потоків для обчислювальних задач дає графічним процесорам архітектури Pascal можливість швидкого перемикання між завданнями з мінімальними втратами часу. А для обчислювальних завдань на CUDA також можливе переривання з мінімальною гранулярністю - на рівні інструкцій. У такому режимі всі потоки зупиняють виконання відразу, негайно перемикаючись на інше завдання. Цей підхід вимагає збереження більшої кількості інформації про стан усіх регістрів кожного потоку, але в деяких випадках неграфічних обчислень цілком виправданий.

Використання швидкого переривання та перемикання завдань у графічних та обчислювальних задачах було додано до архітектури Pascal для того, щоб графічні та неграфічні завдання могли перериватися на рівні окремих інструкцій, а не цілих потоків, як було у Maxwell та Kepler. Ці технології здатні покращити асинхронне виконання різних навантажень на графічний процесор та покращити чуйність при одночасному виконанні кількох завдань. На заході Nvidia показували демонстрацію роботи асинхронних обчислень з прикладу обчислення фізичних ефектів. Якщо без асинхронних обчислень продуктивність була лише на рівні 77-79 FPS, з включенням цих можливостей частота кадрів зросла до 93-94 FPS.

Ми вже наводили в приклад одну з можливостей застосування цієї функціональності в іграх як асинхронного спотворення часу в VR. На ілюстрації показано роботу цієї технології з традиційним перериванням (preemption) і з швидким. У першому випадку процес асинхронного спотворення часу намагаються виконати якомога пізніше, але до початку оновлення зображення на дисплеї. Але робота алгоритму повинна бути віддана на виконання в GPU декількома мілісекундами раніше, тому що без швидкого переривання немає можливості точно виконати роботу в потрібний момент і GPU простоює деякий час.

У разі точного переривання на рівні пікселів і потоків (на ілюстрації праворуч), така можливість дає більшу точність у визначенні моменту переривання, асинхронне спотворення часу може бути запущене значно пізніше з впевненістю в завершенні роботи до початку оновлення інформації на дисплеї. А який простоює якийсь час у першому випадку GPU можна завантажити якоюсь додатковою графічною роботою.

Технологія мультипроектування Simultaneous Multi-Projection

У новому графічному процесорі GP104 з'явилася підтримка нової технології мультипроектування (SMP), що дозволяє GPU малювати дані на сучасних системах виведення зображення більш ефективно. SMP дозволяє відеочіпу одночасно виводити дані в кілька проекцій, для чого потрібно було ввести новий апаратний блок у GPU до складу двигуна PolyMorph наприкінці геометричного конвеєра перед блоком розтеризації. Цей блок відповідає за роботу з кількома проекціями єдиного потоку геометрії.

Двигун мультипроеціювання обробляє геометричні дані одночасно для 16 заздалегідь конфігурованих проекцій, що поєднують точку проекції (камери), ці проекції можна незалежно обертати або нахиляти. Так як кожен геометричний примітив може з'явитися одночасно в декількох проекціях, двигун SMP забезпечує таку функціональність, дозволяючи додатком дати інструкції відеочіпа для реплікації геометрії до 32 разів (16 проекцій при двох центрах проектування) без додаткової обробки.

Весь процес обробки апаратно прискорений, і оскільки мультипроектування працює після геометричного двигуна, йому не потрібно повторювати кілька разів усі стадії обробки геометрії. Зекономлені ресурси важливі в умовах обмеження швидкості рендерингу продуктивністю обробки геометрії, на кшталт тесселяції, коли та сама геометрична робота виконується кілька разів для кожної проекції. Відповідно, в піковому випадку, мультипроектування може скоротити необхідність обробки геометрії до 32 разів.

Але навіщо це все потрібно? Є кілька хороших прикладів, де технологія мультипроеціювання може бути корисною. Наприклад, багатомоніторна система з трьох дисплеїв, встановлених під кутом один до одного, досить близько до користувача (surround-конфігурація). У типовій ситуації сцена відмальовується в одній проекції, що призводить до геометричних спотворень та неправильного відмальовування геометрії. Правильним шляхом є три різні проекції для кожного з моніторів, відповідно до кута, під яким вони розташовані.

За допомогою відеокарти на чіпі з Pascal архітектурою це можна зробити за один прохід геометрії, вказавши три різні проекції, кожна для свого монітора. І користувач, таким чином, зможе змінювати кут, під яким розташовані монітори один до одного не тільки фізично, а й віртуально – повертаючи проекції для бічних моніторів, щоб отримати коректну перспективу у 3D-сцені при помітно ширшому куті огляду (FOV). Щоправда, тут є обмеження - для такої підтримки додаток має вміти малювати сцену з широким FOV та використовувати спеціальні виклики SMP API для встановлення. Тобто у кожній грі так не зробиш, потрібна спеціальна підтримка.

У будь-якому випадку, часи однієї проекції на єдиний плоский монітор минули, тепер багато багатомоніторних конфігурацій та вигнутих дисплеїв, на яких також можна застосовувати цю технологію. Не кажучи вже про системи віртуальної реальності, які використовують спеціальні лінзи між екранами та очима користувача, що потребує нових технік проектування 3D-зображення у 2D-картинку. Багато таких технологій і технік ще на початку розробки, головне, що старі GPU не можуть ефективно використовувати більш ніж одну плоску проекцію. Вони вимагають при цьому кілька проходів рендерингу, багаторазову обробку однієї і тієї ж геометрії і т.д.

У чіпах архітектури Maxwell була обмежена підтримка Multi-Resolution, що допомагає збільшити ефективність, але SMP Pascal може набагато більше. Maxwell міг повертати проекцію на 90 градусів для кубічних карт (cube mapping) або різних дозволів на проекцію, але це було корисно лише в обмеженому колі додатків, на зразок VXGI.

З інших можливостей застосування SMP відзначимо малювання з різною роздільною здатністю та однопрохідний стереорендеринг. Наприклад, малювання з різною роздільною здатністю (Multi-Res Shading) можна використовувати в іграх для оптимізації продуктивності. При її застосуванні використовується вища роздільна здатність у центрі кадру, а на периферії вона знижується для отримання вищої швидкості рендерингу.

Однопрохідний стереорендеринг використовується в VR, він вже доданий у пакет VRWorks і використовує можливість мультипроектування для зниження обсягу геометричної роботи, що потрібна при VR-рендерингу. У разі використання цієї можливості графічний процесор GeForce GTX 1080 обробляє геометрію сцени лише один раз, генеруючи відразу дві проекції для кожного ока, що вдвічі знижує геометричне навантаження на GPU, а також знижує втрати від роботи драйвера та ОС.

Ще більш просунутим методом підвищення ефективності VR-рендерінгу є Lens Matched Shading, коли за допомогою кількох проекцій імітуються геометричні спотворення, необхідні при VR-рендерінгу. Цей метод використовує мультипроеціювання для рендерингу 3D-сцени на поверхню, яка наближено схожа на скориговану лінзою при малюванні для виведення на VR-шолом, що дозволяє не малювати багато зайвих пікселів на периферії, які будуть відкинуті. Найпростіше зрозуміти суть методу з ілюстрації – перед кожним оком використовується по чотири злегка розгорнутих проекції (на Pascal можна використовувати і по 16 проекцій на кожне око – для більш точної імітації вигнутої лінзи) замість однієї:

Такий підхід здатний пристойно заощаджувати у продуктивності. Так, типове зображення для Oculus Rift на кожне око становить 1,1 мегапіксель. Але через різницю в проекціях, щоб його відрендерити, використовується вихідне зображення в 2,1 мегапікселі - на 86% більше за необхідне! Застосування мультипроектування, впровадженого в архітектуру Pascal, дозволяє знизити роздільну здатність зображення до 1,4 мегапікселів, отримавши півторакратну економію в швидкості піксельної обробки, а також економить пропускну здатність пам'яті.

А разом із дворазовою економією за швидкістю обробки геометрії через однопрохідний стереорендеринг, графічний процесор відеокарти GeForce GTX 1080 здатний забезпечити значне збільшення продуктивності VR-рендерингу, дуже вимогливого і до швидкості обробки геометрії, і тим більше – до піксельної обробки.

Поліпшення в блоках виведення та обробки відеоданих

Крім продуктивності та нової функціональності, пов'язаної з 3D-рендерингом, необхідно підтримувати на хорошому рівні та можливості виведення зображення, а також декодування та кодування відеоданих. І перший графічний процесор архітектури Pascal не розчарував - він підтримує всі сучасні стандарти в цьому сенсі, включаючи апаратне декодування формату HEVC, необхідне перегляду 4K-відеороликів на ПК. Також майбутні власники відеокарт GeForce GTX 1080 зможуть незабаром насолодитися програванням потокового 4K-відео з Netflix та інших провайдерів на своїх системах.

З точки зору виведення зображення на дисплеї GeForce GTX 1080 має підтримку HDMI 2.0b з HDCP 2.2, а також DisplayPort. Поки що сертифікована версія DP 1.2, але GPU є готовим до сертифікації для нових версій стандарту: DP 1.3 Ready і DP 1.4 Ready. Останнє дозволяє виводити зображення на 4K-екрани при частоті оновлення 120 Гц, а на 5K- та 8K-дисплеї – при 60 Гц при використанні пари кабелів DisplayPort 1.3. Якщо для GTX 980 максимальна роздільна здатність була 5120×3200 при 60 Гц, то для нової моделі GTX 1080 вона зросла до 7680×4320 при тих же 60 Гц. Референсна GeForce GTX 1080 має три виходи DisplayPort, один HDMI 2.0b та один цифровий Dual-Link DVI.

Нова модель відеокарти Nvidia отримала і покращений блок декодування та кодування відеоданих. Так, чіп GP104 відповідає високим стандартам PlayReady 3.0 (SL3000) для відтворення потокового відео, що дозволяє бути впевненим у тому, що програвання високоякісного контенту від відомих постачальників, як Netflix, буде максимально якісним і енергоефективним. Подробиці про підтримку різних форматів відео при кодуванні та декодуванні наведені в таблиці, новинка явно відрізняється від попередніх рішень на краще:

Але ще цікавішою новинкою можна назвати підтримку так званих дисплеїв підвищеного динамічного діапазону (High Dynamic Range - HDR), які ось-ось повинні набути широкого поширення на ринку. ТБ продаються вже в 2016 році (і всього за рік планується продати чотири мільйони HDR-телевізорів), а монітори - в наступному. HDR - це найбільший прорив у дисплейних технологіях за довгі роки, цей формат забезпечує вдвічі більше відтінків кольорів (75% видимого спектру, на відміну від 33% для RGB), яскравіші дисплеї (1000 нит) з більшою контрастністю (10000:1) та насиченими квітами.

Поява можливості відтворення контенту з більшою різницею в яскравості та більш багатими та насиченими кольорами наблизить зображення на екрані до реальності, чорний колір стане глибшим, яскраве світло буде зліпити, як у справжньому світі. Відповідно, користувачі побачать більше деталей у яскравих та темних ділянках зображень, порівняно зі стандартними моніторами та телевізорами.

Для підтримки HDR-дисплеїв, GeForce GTX 1080 має все необхідне - можливість виведення 12-бітного кольору, підтримку стандартів BT.2020 та SMPTE 2084, а також виведення зображення відповідно до стандарту HDMI 2.0b 10/12-біт для HDR у 4K- дозволі, що було і Maxwell. На додаток до цього, в Pascal з'явилася підтримка декодування HEVC-формату в 4K-роздільна здатність при 60 Гц і 10- або 12-бітному кольорі, який використовується для HDR-відео, а також кодування цього ж формату з такими ж параметрами, але тільки в 10-біт для запису HDR-відео чи потокової передачі. Також новинка готова до стандартизації DisplayPort 1.4 для передачі HDR-даних з цього роз'єму.

До речі, кодування HDR-відео може знадобитися в майбутньому, щоб передавати такі дані з домашнього ПК на ігрову консоль SHIELD, яка вміє відтворювати 10-бітний HEVC. Тобто користувач зможе транслювати гру з ПК у HDR-форматі. Стоп, а де взяти ігри із такою підтримкою? Компанія Nvidia постійно працює з ігровими розробниками для впровадження такої підтримки, передаючи їм все необхідне (підтримку в драйвері, приклади коду і т.п) для коректного рендерингу HDR-зображення, сумісного з існуючими дисплеями.

На момент випуску відеокарти, GeForce GTX 1080, підтримкою HDR-виводу володіють такі ігри, як Obduction, The Witness, Lawbreakers, Rise of Tomb Raider, Paragon, The Talos Principle і Shadow Warrior 2. Але вже в найближчому майбутньому очікується поповнення цього списку .

Зміни у багаточиповому рендерингу SLI

Відбулися й деякі зміни, пов'язані з фірмовою технологією багаточіпового рендерингу SLI, хоча на це ніхто не очікував. SLI використовується ентузіастами ПК-ігор для того, щоб підвищити продуктивність або до екстремальних значень, встановивши найпотужніші одночіпові відеокарти в тандем, або для того, щоб отримати дуже високу частоту кадрів, обмежившись парою рішень середнього рівня, які іноді обходяться дешевше ніж одне топове ( рішення спірне, але так роблять). За наявності 4K-моніторів у гравців майже не залишається інших варіантів, окрім встановлення пари відеокарт, оскільки навіть топові моделі часто не можуть забезпечити комфортну гру за максимальних налаштувань за таких умов.

Одним з важливих компонентів Nvidia SLI є містки, що з'єднують відеокарти у загальну відеопідсистему та службовці для організації цифрового каналу передачі даних між ними. На відеокартах GeForce традиційно встановлювалися подвійні роз'єми SLI, які служили для з'єднання між двома або чотирма відеокартами в 3-Way та 4-Way SLI конфігураціях. Кожна з відеокарт мала з'єднуватися з кожною, оскільки всі GPU відправляли відрендеровані ними кадри в головний графічний процесор, тому й були необхідні по два інтерфейси на кожній із плат.

Починаючи з моделі GeForce GTX 1080, для всіх відеокарт Nvidia, заснованих на архітектурі Pascal, два інтерфейси SLI пов'язані разом для збільшення продуктивності передачі між відеокартами, і такий новий двоканальний режим SLI дозволяє підвищити продуктивність і комфорт при виведенні візуальної інформації на дисплеї дуже високої роздільної здатності чи багатомоніторні системи.

Для такого режиму знадобилися і нові містки, які отримали назву SLI HB. Вони об'єднують пару відеокарт GeForce GTX 1080 відразу двома каналами SLI, хоча нові відеокарти також сумісні і зі старими містками. Для дозволів 1920×1080 та 2560×1440 пікселів при частоті оновлення 60 Гц можна використовувати стандартні містки, але в більш вимогливих режимах (4K, 5K та мультимоніторні системи) кращі результати по плавності зміни кадрів забезпечать тільки нові містки, хоча й старі будуть працювати, але дещо гірше.

Також, при використанні містків SLI HB, інтерфейс передачі даних GeForce GTX 1080 працює на швидкості 650 МГц у порівнянні з 400 МГц у звичайних містків SLI на старих GPU. Причому для деяких із жорстких старих містків також доступна більш висока частота передачі даних із відеочіпами архітектури Pascal. Зі зростанням швидкості передачі даних між GPU за подвоєним інтерфейсом SLI з підвищеною частотою роботи, забезпечується і більш плавне виведення кадрів на екран, порівняно з попередніми рішеннями:

Потрібно також відзначити, що підтримка багаточипового рендерингу в DirectX 12 дещо відрізняється від того, що було раніше раніше. В останній версії графічного API компанія Microsoft зробила багато змін, пов'язаних з роботою таких відеосистем. Для розробників ПЗ в DX12 доступні два варіанти використання кількох GPU: режими Multi Display Adapter (MDA) та Linked Display Adapter (LDA).

Причому режим LDA має дві форми: Implicit LDA (який Nvidia використовує для SLI) і Explicit LDA (коли розробник гри бере на себе завдання управління багаточіповим рендерингом. Режими MDA та Explicit LDA якраз і були впроваджені в DirectX 12 для того, щоб дати ігровим розробникам більше свободи та можливостей при використанні багаточіпових відеосистем Різниця між режимами добре видно по наступній таблиці:

У режимі LDA пам'ять кожного GPU може бути пов'язана з пам'яттю іншого і відображатися у вигляді великого загального обсягу, природно, при всіх обмеженнях продуктивності, коли дані дістаються з «чужої» пам'яті. У режимі MDA пам'ять кожного GPU працює окремо, і різні GPU не можуть отримати прямий доступ до даних із пам'яті іншого графічного процесора. Режим LDA розроблений для багаточіпових систем аналогічної продуктивності, а режим MDA має менше обмежень, і в ньому можуть працювати дискретні та інтегровані GPU або дискретні рішення з чіпами різних виробників. Але цей режим також вимагає від розробників більше уваги та роботи під час програмування спільної роботи для того, щоб GPU змогли обмінюватися інформацією один з одним.

За умовчанням, SLI-система на основі плат GeForce GTX 1080 підтримує лише два GPU, а три- і чотиричіпові конфігурації офіційно не рекомендуються до використання, тому що в сучасних іграх стає все складніше забезпечувати приріст продуктивності від додавання третього та четвертого графічного процесора. Наприклад, багато ігор упираються у можливості центрального процесора системи під час роботи багаточіпових відеосистем, також у нових іграх дедалі частіше використовуються темпоральні (тимчасові) техніки, використовують дані з попередніх кадрів, у яких ефективна робота відразу кількох GPU просто неможлива.

Втім, робота систем в інших (не SLI) багаточіпових системах залишається можливою, як режими MDA або LDA Explicit в DirectX 12 або двочіпова SLI система з виділеним третім GPU для фізичних ефектів PhysX. А як же рекорди у бенчмарках, невже у Nvidia відмовляються від них зовсім? Ні, звичайно, але оскільки подібні системи затребувані у світі чи не одиницями користувачів, то для таких ультраентузіастів вигадали спеціальний ключ Enthusiast Key, який можна завантажити на сайті Nvidia і розблокувати цю можливість. Для цього потрібно спочатку отримати унікальний ідентифікатор GPU, запустивши спеціальний додаток, потім запросити Enthusiast Key на веб-сайті і, завантаживши його, встановити ключ до системи, розблокувавши 3-Way і 4-Way конфігурації SLI.

Технологія синхронізації Fast Sync

Деякі зміни відбулися у технологіях синхронізації під час виведення інформації на дисплей. Забігаючи вперед, у G-Sync не з'явилося нічого нового, як не підтримується технологія адаптивної синхронізації Adaptive Sync. Натомість у Nvidia вирішили покращити плавність виведення та синхронізацію для ігор, які показують дуже високу продуктивність, коли частота кадрів помітно перевищує частоту оновлення монітора. Це особливо важливо для ігор, що вимагають мінімальних затримок та швидкого відгуку і за якими проходять мультиплеєрні битви та змагання.

Fast Sync – це нова альтернатива вертикальній синхронізації, яка не має візуальних артефактів у вигляді розривів картинки на зображенні та не прив'язана до фіксованої частоти оновлення, що підвищує затримки. У чому проблема вертикальної синхронізації у таких іграх, як Counter-Strike: Global Offensive? Ця гра на потужних сучасних GPU працює з кількома сотнями кадрів на секунду, і гравець має вибір: включати вертикальну синхронізацію чи ні.

У розрахованих на багато користувачів іграх користувачі найчастіше женуться за мінімальними затримками і VSync відключають, отримуючи добре видимі розриви на зображенні, вкрай неприємні і при високій частоті кадрів. Якщо ж увімкнути вертикальну синхронізацію, то гравець отримає значне зростання затримок між його діями та зображенням на екрані, коли графічний конвеєр сповільнюється до частоти оновлення монітора.

Так працює традиційний конвеєр. Але в Nvidia вирішили розділити процес рендерингу та виведення зображення на екран за допомогою технології Fast Sync. Це дозволяє продовжувати максимально ефективну роботу для частини GPU, яка займається рендерингом кадрів на повній швидкості, зберігаючи ці кадри в спеціальному тимчасовому буфері Last Rendered Buffer.

Такий метод дозволяє змінювати спосіб виведення на екран і брати краще від режимів VSync On та VSync Off, отримавши низькі затримки, але без артефактів зображення. З Fast Sync немає керування потоком кадрів, ігровий двигун працює в режимі відключеної синхронізації і йому не говорять почекати з відтворенням чергового, тому і затримки майже такі ж низькі, як у режиму VSync Off. Але оскільки Fast Sync самостійно вибирає буфер для виведення на екран і виводить кадр цілком, то немає розривів картинки.

При роботі Fast Sync використовується три різні буфери, перші два з яких працюють аналогічно подвійній буферизації в класичному конвеєрі. Первинний буфер (Front Buffer – FB) – це буфер, інформація з якого виводиться на дисплей, повністю відмальований кадр. Вторинний буфер (Back Buffer - BB) - це буфер, який надходить інформація при рендерингу.

При використанні вертикальної синхронізації в умовах високої частоти кадрів гра чекає досягнення моменту оновлення інформації на дисплеї (refresh interval), щоб поміняти місцями первинний буфер з вторинним виведення зображення цільного кадру на екран. Це сповільнює процес, а додавання додаткових буферів як за традиційної потрійної буферизації лише додасть затримку.

З використанням Fast Sync додається третій буфер Last Rendered Buffer (LRB), який використовується для зберігання всіх кадрів, щойно відрендерованих у вторинному буфері. Назва буфера говорить сама за себе, містить копію останнього повністю відмальованого кадру. І коли настане момент оновлення первинного буфера, цей LRB буфер копіюється в первинний повністю, а не частинами, як з вторинного при відключеній вертикальній синхронізації. Так як копіювання інформації з буферів неефективне, то вони просто змінюються місцями (або перейменовуються, як зручніше зрозуміти), а нова логіка зміни буферів місцями, що з'явилася в GP104, керує цим процесом.

На практиці включення нового методу синхронізації Fast Sync забезпечує все ж таки трохи більшу затримку, в порівнянні з зовсім відключеною вертикальною синхронізацією - в середньому на 8 мс більше, зате виводить кадри на монітор повністю, без неприємних артефактів на екрані, що розривають зображення. Новий метод можна увімкнути з графічних налаштувань панелі керування Nvidia у секції керування вертикальною синхронізацією. Втім, значенням за умовчанням залишається управління додатком, та й включати Fast Sync у всіх 3D-додатках просто не потрібно, краще вибрати цей метод безпосередньо для ігор з високим FPS.

Технології віртуальної реальності Nvidia VRWorks

Ми вже не раз торкалися гарячої теми віртуальної реальності у статті, але мова в основному йшла про підвищення частоти кадрів та забезпечення низьких затримок, дуже важливих для VR. Все це дуже важливо і прогрес дійсно є, але поки що VR-ігри виглядають далеко не настільки вражаюче, як найкращі із «звичайних» сучасних 3D-ігор. Так виходить не тільки тому, що VR-додатками провідні ігрові розробники поки що не особливо займаються, але й через більшу вимогливість VR до частоти кадрів, що не дає використовувати багато звичних технік у таких іграх через високу вимогливість.

Для того, щоб зменшити різницю як між VR-іграми і звичайними, в Nvidia вирішили випустити цілий пакет відповідних технологій VRWorks, до якого увійшла велика кількість API, бібліотек, движків і технологій, які дозволяють значно покращити як якість, так і продуктивність VR- додатків. Як це стосується анонсу першого ігрового рішення на Pascal? Дуже просто – в нього впровадили деякі технології, які допомагають збільшити продуктивність та покращити якість, і ми про них уже писали.

І хоча справа стосується далеко не лише графіки, спочатку трохи розповімо саме про неї. У набір технологій VRWorks Graphics входять вже згадані раніше технології, на зразок Lens Matched Shading, що використовують можливість мультипроектування, що з'явилася саме в GeForce GTX 1080. Новинка дозволяє отримати приріст продуктивності в 1,5-2 рази по відношенню до рішень, які не мають такої підтримки. Також ми згадували й інші технології, на кшталт MultiRes Shading, призначеного для рендерингу з різною роздільною здатністю в центрі кадру та на його периферії.

Але куди несподіваніше був анонс технології VRWorks Audio, призначеної для якісного розрахунку звукових даних у 3D-сценах, особливо важливого в системах віртуальної реальності. У звичайних двигунах позиціонування джерел звуку у віртуальному середовищі розраховується досить коректно, якщо ворог стріляє праворуч, то й звук голосніше лунає з цього боку аудіосистеми, і такий розрахунок не дуже вимогливий до обчислювальної потужності.

Але насправді звуки йдуть не тільки до гравця, але у всіх напрямках і відбиваються від різних матеріалів, аналогічно тому, як відбиваються промені світла. І насправді ми чуємо ці відображення, хоч і не так виразно, як прямі звукові хвилі. Ці непрямі відображення звуку зазвичай імітуються спеціальними ефектами реверберації, але це дуже примітивний підхід до завдання.

У пакеті VRWorks Audio використовується прорахунок звукових хвиль аналогічно до трасування променів при рендерингу, коли шлях променів світла відстежується до декількох відображень від об'єктів у віртуальній сцені. VRWorks Audio також імітує поширення звукових хвиль у навколишньому середовищі, коли відстежуються прямі та відбиті хвилі, залежно від кута їх падіння та властивостей відбиваючих матеріалів. У своїй роботі VRWorks Audio використовує відомий за графічними завданнями високопродуктивний двигун Nvidia OptiX, призначений для трасування променів. OptiX може використовуватися для різноманітних завдань, таких як розрахунок непрямого освітлення та підготовка карт освітлення, а тепер і для трасування звукових хвиль у VRWorks Audio.

Nvidia вбудувала точний розрахунок звукових хвиль у свою демонстраційну програму VR Funhouse, у ній використовується кілька тисяч променів та прораховується до 12 відбитків від об'єктів. А для того, щоб на зрозумілому прикладі засвоїти переваги технології, пропонуємо вам переглянути відеоролик про роботу технології російською мовою:

Важливо, що підхід Nvidia відрізняється від традиційних звукових движків, у тому числі і апаратно прискореного за допомогою спеціального блоку GPU методу від головного конкурента. Всі ці методи забезпечують лише точне позиціонування джерел звуку, але не розраховують відображення звукових хвиль від об'єктів у 3D-сцені, хоч і можуть імітувати це за допомогою ревербераційного ефекту. І все ж таки використання технології трасування променів може бути куди реалістичніше, оскільки тільки такий підхід забезпечить точну імітацію різних звуків, з урахуванням розмірів, форми та матеріалів об'єктів у сцені. Важко сказати, чи потрібна така точність обчислень для типового гравця, але можна сказати точно: у VR вона може додати користувачам тієї самої реалістичності, якої поки що не вистачає у звичайних іграх.

Ну а нам залишилося розповісти лише про технологію VR SLI, що працює і в OpenGL і DirectX. Її принцип гранично простий: двопроцесорна відеосистема у VR-додатку буде працювати так, що кожному оку виділяється окремий GPU, на відміну від AFR-рендерінгу, звичного для SLI-конфігурацій. Це значно підвищує загальну продуктивність, таку важливу для систем віртуальної реальності. Теоретично можна використовувати і більшу кількість GPU, але їхня кількість має бути парною.

Такий підхід був потрібний тому, що AFR погано підходить для VR, тому що з його допомогою перший GPU малюватиме парний кадр для обох очей, а другий - непарний, що нітрохи не знижує затримки, критично важливі для систем віртуальної реальності. Хоча частота кадрів буде досить високої. Так що за допомогою VR SLI робота над кожним кадром поділяється на два GPU – один працює над частиною кадру для лівого ока, другий – для правого, а потім ці половинки кадру об'єднуються в цілий.

Подібний поділ роботи між парою графічних процесорів приносить майже дворазове зростання продуктивності, що дозволяє підняти частоту кадрів та знизити затримки порівняно із системами на основі однієї відеокарти. Щоправда, використання VR SLI вимагає спеціальної підтримки з боку програми, щоб використати цей метод масштабування. Але технологія VR SLI вже вбудована в такі демонстраційні VR-програми як The Lab від Valve та Trials on Tatooine від ILMxLAB, і це тільки початок - у Nvidia обіцяють швидку появу інших програм, а також впровадження технології в ігрові двигуни Unreal Engine 4, Unity та MaxPlay.

Платформа створення ігрових скріншотів Ansel

Одним із найцікавіших анонсів, пов'язаних із програмним забезпеченням, став випуск технології захоплення якісних скріншотів в ігрових додатках, названої на ім'я одного відомого фотографа – Ansel. Ігри вже давно стали не просто іграми, а й місцем застосування пустотливих рук для різних творчих особистостей. Хтось змінює скрипти до ігор, хтось випускає якісні набори текстур до ігор, а хтось робить гарні скріншоти.

Компанія Nvidia вирішила допомогти останнім, представивши нову платформу для створення (саме створення, тому що це не такий простий процес) якісних знімків з ігор. Вони вважають, що Ansel допоможе створити новий вид сучасного мистецтва. Адже вже є чимало художників, які проводять більшу частину життя за ПК, створюючи гарні скріншоти з ігор, і вони досі не мали зручного інструменту для цього.

Ansel дозволяє не просто захоплювати зображення у грі, а міняти його так, як потрібно творцю. За допомогою цієї технології можна рухати камеру по сцені, повертати та нахиляти її у будь-якому напрямку для того, щоб отримати необхідну композицію кадру. Наприклад, у таких іграх, як шутери від першої особи, можна тільки рухати гравця, більше нічого міняти особливо не вийде, тому всі скріншоти виходять досить одноманітними. З вільною ж камерою в Ansel можна вийти далеко за межі ігрової камери, вибравши такий ракурс, який потрібен для вдалої картинки, або захопити повноцінну 360-градусну стереокартину з потрібної точки, та у високому дозволі для подальшого перегляду в VR-шоломі.

Ansel працює досить просто – за допомогою спеціальної бібліотеки від Nvidia ця платформа впроваджується в код гри. Для цього її розробнику потрібно лише додати невеликий шматок коду в свій проект, щоб дозволити відеодрайверу Nvidia перехоплювати дані буферів і шейдерів. Роботи там зовсім небагато, впровадження Ansel у гру вимагає менше ніж одного дня для впровадження. Так, включення цієї можливості в гру The Witness зайняло близько 40 рядків коду, а The Witcher 3 - близько 150 рядків коду.

Ansel з'явиться з відкритим пакетом для розробки – SDK. Головне, що користувач отримує разом з ним стандартний набір налаштувань, що дозволяють йому змінювати положення і кут камери, додавати ефекти і т. п. Платформа Ansel працює так: вона ставить гру на паузу, включає вільну камеру і дозволяє змінювати кадр до потрібного вигляду, записуючи результат у вигляді звичайного скріншота, 360-градусного знімка, стереопари або просто панорами величезної роздільної здатності.

Єдине зауваження: не всі ігри матимуть підтримку всіх можливостей платформи створення ігрових скріншотів Ansel. Деякі з ігрових розробників з тих чи інших причин не бажають включати повністю вільну камеру у своїх іграх, наприклад, через можливість використання цієї функціональності читерами. Або вони хочуть обмежити зміну кута огляду з тієї ж причини - щоб ніхто не отримав несправедливої ​​переваги. Ну, або щоб користувачі не побачили убогі спрайти на задньому плані. Все це – цілком нормальні бажання творців ігор.

Однією з найцікавіших можливостей Ansel є створення скріншотів величезного дозволу. Неважливо, що гра підтримує роздільну здатність до 4K, наприклад, а монітор у користувача і зовсім Full HD. За допомогою платформи зняття скріншотів можна захопити набагато якісніше зображення, обмежене швидше обсягом і продуктивністю накопичувача. Платформа з легкістю захоплює скріншоти з роздільною здатністю до 4,5 гігапікселів, зі зшивкою їх із 3600 шматочків!

Зрозуміло, що на таких картинах можна розглянути всі деталі, аж до тексту на газетах, що валяються вдалині, якщо такий рівень деталізації в принципі передбачений у грі - Ansel вміє керувати і рівнем деталізації, виставляючи максимальний рівень, щоб отримати кращу якість картинки. Адже ще можна включити суперсемплінг. Все це дозволяє створювати зображення з ігор, які можна сміливо друкувати на великих банерах та бути спокійним за їхню якість.

Цікаво, що зшивання великих зображень використовується спеціальний апаратно прискорений код з урахуванням CUDA. Адже жодна відеокарта не зможе відрендерити багатогігапіксельне зображення цілком, але вона може зробити це за шматочками, які потрібно просто об'єднати згодом, враховуючи можливу різницю у освітленні, кольорі та інше.

Після зшивання таких панорам для всього кадру використовується спеціальна постобробка, яка також прискорена на GPU. А для захоплення зображень у підвищеному динамічному діапазоні можна використовувати спеціальний формат зображень – EXR, відкритий стандарт від Industrial Light and Magic, значення кольоровості у кожному каналі якого записуються у 16-бітному форматі з плаваючою комою (FP16).

Цей формат дозволяє змінювати яскравість і динамічний діапазон зображення постобробкою, що призводить до потрібного для кожного конкретного дисплея аналогічно тому, як це робиться з RAW-форматами з фотокамер. Та й подальшого застосування фільтрів постобробки у програмах обробки зображень цей формат дуже корисний, оскільки містить куди більше даних, ніж звичні формати для зображень.

Але платформа Ansel і сама містить безліч фільтрів для постобробки, що особливо важливо тому, що вона має доступ не тільки до підсумкової картинки, а й до всіх буферів, що використовуються грою при рендерингу, що можна використовувати для дуже цікавих ефектів, як глибина різкості. Для цього в Ansel є спеціальний API для постобробки, і будь-який ефект можна включити в гру з підтримкою цієї платформи.

В число постфільтрів Ansel входять такі фільтри як: кольори curves, color space, transformation, desaturation, brightness/contrast, film grain, bloom, lens flare, anamorphic glare, distortion, heathaze, fisheye, color aberration, tone mapping, lens dirt, light , vignette, gamma correction, convolution, sharpening, edge detection, blur, sepia, denoise, FXAA та інші.

Що стосується появи підтримки Ansel в іграх, то тут доведеться почекати, поки розробники її впровадять і протестують. Але Nvidia обіцяє швидку появу такої підтримки в таких відомих іграх, як The Division, The Witness, Lawbreakers, The Witcher 3, Paragon, Fortnite, Obduction, No Man's Sky, Unreal Tournament та інших.

Новий технологічний процес 16 нм FinFET і оптимізації архітектури дозволили відеокарті GeForce GTX 1080, заснованій на графічному процесорі GP104, досягти високої тактової частоти в 1,6-1,7 ГГц навіть у референсному вигляді, а роботу на максимально можливих частотах в іграх гарантує технології GPU Boost Разом із збільшеною кількістю виконавчих блоків, ці покращення зробили новинку не просто найвищою продуктивною одночіповою відеокартою за весь час, а й найбільш енергоефективним рішенням на ринку.

Модель GeForce GTX 1080 стала першою відеокартою, що несе на собі новий тип графічної пам'яті GDDR5X – нового покоління високошвидкісних чіпів, що дозволило досягти дуже високої частоти передачі даних. У разі модифікації GeForce GTX 1080 цей тип пам'яті працює на ефективній частоті в 10 ГГц. У поєднанні з покращеними алгоритмами стиснення інформації у фреймбуфері, це призвело до зростання ефективної пропускної спроможності пам'яті для цього графічного процесора в 1,7 рази порівняно з прямим попередником в особі GeForce GTX 980.

Компанія Nvidia розсудливо вирішила не випускати радикально нову архітектуру на абсолютно новому для себе техпроцесі, щоб не зіткнутися із зайвими проблемами при розробці та виробництві. Натомість вони серйозно покращили і так непогану і дуже ефективну архітектуру Maxwell, додавши деякі можливості. У результаті, з виробництвом нових GPU все добре, і у випадку моделі GeForce GTX 1080 інженери досягли дуже високого частотного потенціалу - у розігнаних варіантах від партнерів частота GPU очікується до 2 ГГц! Така вражаюча частота стала реальною завдяки досконалому техпроцесу і копіткої роботи інженерів Nvidia при розробці графічного процесора Pascal.

І хоча Pascal став прямим послідовником справи Maxwell, і ці графічні архітектури в основі своїй не дуже відрізняються одна від одної, компанія Nvidia впровадила безліч змін і поліпшень, у тому числі в можливості виведення зображення на дисплеї, движок кодування і декодування відеоданих, покращили асинхронне виконання різних типів обчислень на GPU, внесли зміни до багаточіпового рендерингу та впровадили новий метод синхронізації Fast Sync.

Не можна не виділити технологію мультипроектування Simultaneous Multi-Projection, яка допомагає підвищити продуктивність у системах віртуальної реальності, отримати коректніше відображення сцен на багатомоніторних системах та впровадити нові техніки оптимізації продуктивності. Але найбільший приріст у швидкості отримають VR-додатки, коли ними підтримуватиметься технологія мультипроеціювання, що допомагає вдвічі заощадити ресурси GPU при обробці геометричних даних та в півтора рази – при попіксельних обчисленнях.

Серед чисто програмних змін особливо виділяється платформа для створення скріншотів в іграх під назвою Ansel - спробувати її у справі буде цікаво не тільки багато грає, але і просто цікавиться якісною 3D-графікою. Новинка дозволяє просунути мистецтво створення та ретуші скріншотів на новий рівень. Ну а такі свої пакети для розробників ігор, як GameWorks та VRWorks, Nvidia просто продовжує покращувати крок за кроком - так, в останньому з'явилася цікава можливість якісного обчислення звуку, що враховує численні відображення звукових хвиль з використанням апаратного трасування променів.

Загалом у вигляді відеокарти Nvidia GeForce GTX 1080 на ринок вийшов справжній лідер, який має для цього всі необхідні якості: високу продуктивність і широку функціональність, а також підтримку нових можливостей та алгоритмів. Перші покупці цієї відеокарти зможуть оцінити багато зі згаданих переваг відразу, а інші можливості рішення розкриються трохи пізніше, коли з'явиться широка підтримка з боку програмного забезпечення. Головне, що GeForce GTX 1080 вийшла досить швидкою та ефективною, а частина проблемних місць (ті ж асинхронні обчислення), як ми дуже сподіваємося, інженерам Nvidia вдалося виправити.

Графічний прискорювач GeForce GTX 1070

ПараметрЗначення
Кодове ім'я чіпаGP104
Технологія виробництва16 нм FinFET
Кількість транзисторів7,2 млрд.
Площа ядра314 мм²
АрхітектураУніфікована, з масивом загальних процесорів для потокової обробки численних видів даних: вершин, пікселів та ін.
Апаратна підтримка DirectXDirectX 12, з підтримкою рівня можливостей Feature Level 12_1
Шина пам'яті256-бітна: вісім незалежних 32-бітових контролерів пам'яті з підтримкою GDDR5 та GDDR5X пам'яті
Частота графічного процесора1506 (1683) МГц
Обчислювальні блоки15 активних (з 20 у чіпі) потокових мультипроцесорів, що включають 1920 (з 2560) скалярних ALU для розрахунків з плаваючою комою в рамках стандарту IEEE 754-2008;
Блоки текстурування120 активних (зі 160 у чіпі) блоків текстурної адресації та фільтрації з підтримкою FP16- та FP32-компонент у текстурах та підтримкою трилінійної та анізотропної фільтрації для всіх текстурних форматів
Блоки растрових операцій (ROP)8 широких блоків ROP (64 пікселя) з підтримкою різних режимів згладжування, у тому числі програмованих і при FP16 або FP32 форматі буфера кадру. Блоки складаються з масиву конфігурованих ALU і відповідають за генерацію та порівняння глибини, мультисемплінг та блендинг
Підтримка моніторівІнтегрована підтримка до чотирьох моніторів, підключених за інтерфейсами Dual Link DVI, HDMI 2.0b та DisplayPort 1.2 (1.3/1.4 Ready)

Специфікації референсної відеокарти GeForce GTX 1070
ПараметрЗначення
Частота ядра1506 (1683) МГц
Кількість універсальних процесорів1920
Кількість текстурних блоків120
Кількість блоків блендінгу64
Ефективна частота пам'яті8000 (4×2000) МГц
Тип пам'ятіGDDR5
Шина пам'яті256-біт
Обсяг пам'яті8 ГБ
Пропускна спроможність пам'яті256 ГБ/с
Обчислювальна продуктивність (FP32)близько 6,5 терафлопс
Теоретична максимальна швидкість забарвлення96 гігапікселів/с
Теоретична швидкість вибірки текстур181 гігатекселів/с
ШинаPCI Express 3.0
Роз'ємиОдин роз'єм Dual Link DVI, один HDMI та три DisplayPort
Енергоспоживаннядо 150 Вт
Додаткове харчуванняОдин 8-контактний роз'єм
Число слотів, які займають у системному корпусі2
Рекомендована ціна$379-449 (США), 34 990 (Росія)

Відеокарта GeForce GTX 1070 також отримала логічне найменування, аналогічне до такого ж рішення з попередньої серій GeForce. Воно відрізняється від свого прямого попередника GeForce GTX 970 лише зміненою цифрою покоління. Новинка стає в поточній лінійці компанії на крок нижче за нинішнє топове рішення GeForce GTX 1080, що стало тимчасовим флагманом нової серії до випуску рішень на GPU ще більшої потужності.

Рекомендовані ціни на нову топову відеоплату Nvidia становлять $379 та $449 для звичайних версій партнерів Nvidia та спеціального видання Founders Edition відповідно. У порівнянні з топовою моделлю, це дуже хороша ціна з урахуванням того, що GTX 1070 поступається їй близько 25% у гіршому випадку. І на момент анонсу та виходу GTX 1070 стає найкращим за продуктивністю рішенням у своєму класі. Як і GeForce GTX 1080, модель GTX 1070 не має прямих конкурентів від AMD, і порівнювати її можна хіба що з Radeon R9 390X та Fury.

У графічного процесора GP104 у модифікації GeForce GTX 1070 вирішили залишити повну 256-бітну шину пам'яті, хоча застосували не новий тип пам'яті GDDR5X, а дуже швидку GDDR5, яка працює на високій ефективній частоті 8 ГГц. Об'єм встановленої на відеокарту пам'яті з такою шиною може дорівнювати 4 або 8 ГБ, і щоб забезпечити максимальну продуктивність нового рішення в умовах високих налаштувань і дозволах рендерингу, модель відеокарти GeForce GTX 1070 була також оснащена 8 ГБ відеопам'яті, як і її старша сестра. Цього обсягу вистачить для запуску будь-яких 3D-додатків із максимальними налаштуваннями якості на кілька років.

Спеціальне видання GeForce GTX 1070 Founders Edition

При анонсі GeForce GTX 1080 на початку травня було оголошено спеціальне видання відеокарти під назвою Founders Edition, що має більш високу ціну порівняно зі звичайними відеокартами партнерів компанії. Те саме стосується і новинки. У цьому матеріалі ми знову розповімо про спеціальне видання GeForce GTX 1070 під назвою Founders Edition. Як і у випадку старшої моделі, Nvidia вирішила випустити такий варіант референсної відеокарти виробника за вищою ціною. Вони стверджують, що багато гравців та ентузіастів, які купують дорогі відеокарти топового рівня, хочуть продукт з відповідним «преміальним» виглядом і відчуттям від нього.

Відповідно, саме для таких користувачів на ринок буде випущена відеокарта GeForce GTX 1070 Founders Edition, яка спроектована і виконана інженерами Nvidia з преміальних матеріалів та компонентів, на кшталт алюмінієвої кришки GeForce GTX 1070 Founders Edition, а також низькопрофільної задньої пластини, що прикриває оборот досить популярною серед ентузіастів.

Як ви можете бачити по фотографіях плати, GeForce GTX 1070 Founders Edition успадкувала той самий індустріальний дизайн, властивий референсному варіанту GeForce GTX 1080 Founders Edition. В обох моделях застосовується радіальний вентилятор, що викидає нагріте повітря назовні, що дуже корисно як у маленьких корпусах, так і багаточіпових SLI-конфігураціях з обмеженим фізичним простором. Видування нагрітого повітря назовні замість його циркуляції всередині корпусу дозволяє знизити температурне навантаження, підвищити результати розгону та продовжити час життя компонентам системи.

Під кришкою референсної системи охолодження GeForce GTX 1070 ховається алюмінієвий радіатор спеціальної форми з трьома вбудованими мідними тепловими трубками, що відводять тепло від самого графічного процесора. Тепло, відведене тепловими трубками, потім розсіюється алюмінієвим радіатором. Ну і низькопрофільна металева пластина на звороті плати також призначена для забезпечення кращих температурних характеристик. Вона також має секцію для кращого руху повітря між декількома відеокартами в SLI-конфігураціях.

Що стосується системи живлення плати, GeForce GTX 1070 Founders Edition має чотирифазну систему живлення, оптимізовану для стабільного постачання енергією. Компанія Nvidia запевняє, що використання спеціальних компонентів у GTX 1070 Founders Edition дозволило підвищити ефективність електропостачання, стабільність та надійність у порівнянні з GeForce GTX 970, забезпечивши найкращі показники при розгоні. У своїх тестах компанії графічні процесори плат GeForce GTX 1070 легко перевершували значення 1,9 ГГц, що близько до результатів старшої моделі GTX 1080.

Відеокарта Nvidia GeForce GTX 1070 буде доступна у роздрібних магазинах починаючи з 10 червня. Рекомендовані ціни на GeForce GTX 1070 Founders Edition та рішення партнерів відрізняються, і в цьому полягає найголовніше питання цього спеціального видання. Якщо партнери Nvidia будуть продавати свої відеокарти GeForce GTX 1070 за ціною, починаючи від $379 (на ринку США), Founders Edition референсного дизайну Nvidia буде коштувати вже $449. Чи багато знайдеться ентузіастів, які готові переплачувати за, скажімо прямо, сумнівні переваги референсного варіанту? Час покаже, але ми вважаємо, що референсна плата цікава швидше як варіант, доступний до купівлі на самому початку продажів, а пізніше зміст його придбання (та ще за більшу ціну!) вже зводиться до нуля.

Залишається додати, що друкована плата референсної GeForce GTX 1070 схожа з такою у старшої відеокарти і вони відрізняються від пристрою попередніх плат компанії. Значення типового енергоспоживання для новинки складає 150 Вт, що менше значення для GTX 1080 майже на 20% і близько до споживання енергії відеокартою попереднього покоління GeForce GTX 970. , один HDMI та три DisplayPort. Причому з'явилася підтримка нових версій HDMI та DisplayPort, про яку ми написали вище в огляді моделі GTX 1080.

Архітектурні зміни

Відеокарта моделі GeForce GTX 1070 заснована на чіпі GP104, первісток нового покоління графічної архітектури Nvidia – Pascal. Ця архітектура взяла в основу рішення, відпрацьовані ще в Maxwell, але в ній є і деякі функціональні відмінності, про які ми докладно писали вище - у частині, присвяченій топової відеокарти GeForce GTX 1080.

Головною зміною нової архітектури став технологічний процес, за яким будуть виконані нові графічні процесори. Застосування техпроцесу 16 нм FinFET при виробництві GP104 дозволило значно підвищити складність чіпа при збереженні порівняно невисокої площі та собівартості, і перший чіп архітектури Pascal має помітно більшу кількість виконавчих блоків, у тому числі що забезпечують нову функціональність, порівняно з чіпами Maxwell схожого позиціонування.

Відеочіп GP104 по своєму пристрої схожий на аналогічні рішення архітектури Maxwell, і докладні дані про пристрій сучасних GPU ви можете знайти в наших оглядах попередніх рішень компанії Nvidia. Як і попередні графічні процесори, чіпи нової архітектури будуть мати різну конфігурацію обчислювальних кластерів Graphics Processing Cluster (GPC), потокових мультипроцесорів Streaming Multiprocessor (SM) і контролерів пам'яті, і в GeForce GTX 1070 вже відбулися деякі зміни - частина чіпа була заблокована виділено сірим):

Хоча до складу графічного процесора GP104 входить чотири кластери GPC та 20 мультипроцесорів SM, у версії для GeForce GTX 1070 він отримав урізану модифікацію з апаратно відключеним одним кластером GPC. Так як кожен кластер GPC має виділений двигун растеризації і включає п'ять мультипроцесорів SM, а кожен мультипроцесор складається з 128 CUDA-ядер і восьми текстурних блоків TMU, то в цій версії GP104 активні 1920 CUDA-ядер і 120 блоків TMU з 2560 потокових процесів та 160 текстурних блоків, наявних фізично.

Графічний процесор, на якому заснована відеокарта GeForce GTX 1070, містить вісім 32-бітних контролерів пам'яті, що дають підсумкову 256-бітну шину пам'яті - так само, як у випадку старшої моделі GTX 1080. Підсистема пам'яті не була урізана для того, щоб забезпечити досить високу пропускну здатність пам'яті з умовою застосування GDDR5-пам'яті в GeForce GTX 1070. До кожного з контролерів пам'яті прив'язано по вісім блоків ROP та 256 КБ кеш-пам'яті другого рівня, тому чіп GP104 і в цій модифікації також містить 64 блоків ROP та 2048 КБ кеш- рівня.

Завдяки архітектурним оптимізаціям та новому техпроцесу, графічний процесор GP104 став найенергоефективнішим графічним процесором на даний момент. Інженери компанії Nvidia змогли підвищити тактову частоту більше, ніж вони розраховували при переході на новий техпроцес, для чого їм довелося добре попрацювати, ретельно перевіривши та оптимізувавши всі вузькі місця попередніх рішень, що не дозволяють працювати на вищій частоті. Відповідно, GeForce GTX 1070 також працює на дуже високій частоті, більш ніж на 40% вище за референсне значення для GeForce GTX 970.

Так як модель GeForce GTX 1070 є, по суті, просто трохи менш продуктивною GTX 1080 з GDDR5-пам'яттю, то вона підтримує абсолютно всі технології, описані нами в попередньому розділі. Щоб отримати більше деталей про архітектуру Pascal, так само як і підтримувані їй технології, на кшталт покращених блоків виведення та обробки відеоданих, підтримки асинхронних обчислень Async Compute, технології мультипроектування Simultaneous Multi-Projection, змінах у багаточиповому рендерингу SLI та новому типі синхронізації Fast Sync, варто ознак з розділом GTX 1080.

Високопродуктивна GDDR5-пам'ять та її ефективне використання

Ми вище писали про зміни в підсистемі пам'яті у графічного процесора GP104, на якому засновані моделі GeForce GTX 1080 і GTX 1070 - контролери пам'яті, що є у складі цього GPU, підтримують новий тип відеопам'яті GDDR5X, про який докладно написано в огляді GTX 1080 і стару добру GDDR5-пам'ять, відому нам вже кілька років.

Щоб не надто багато втратити в пропускній спроможності пам'яті в молодшій моделі GTX 1070 у порівнянні зі старшою GTX 1080, в ній залишили активними всі вісім 32-бітних контролерів пам'яті, отримавши повноцінний 256-розрядний інтерфейс відеопам'яті. Крім цього, відеокарту оснастили найвищою швидкісною GDDR5-пам'яттю, яка тільки була доступна на ринку - з ефективною частотою роботи в 8 ГГц. Все це забезпечило ПСП в 256 ГБ/с, на відміну від 320 ГБ/с у старшого рішення - приблизно на стільки ж були урізані і обчислювальні можливості, тому баланс був дотриманий.

Не забуваймо, що хоча пікова теоретична пропускна здатність важлива для продуктивності графічних процесорів, слід звертати увагу і на ефективність її використання. У процесі рендерингу безліч різних вузьких місць може обмежувати загальну продуктивність, не даючи використовувати всю наявну ПСП. Щоб мінімізувати кількість таких вузьких місць, у графічних процесорах застосовується спеціальне стиснення інформації без втрат, що підвищує ефективність операцій читання та запису даних.

В архітектурі Pascal було впроваджено вже четверте покоління дельта-стиснення інформації буферів, що дозволяє GPU ефективніше використовувати наявні можливості шини відеопам'яті. Підсистема пам'яті в GeForce GTX 1070 та GTX 1080 використовує покращені старі та кілька нових технік зі стиснення даних без втрат, призначені для зниження вимог до ПСП. Це знижує кількість даних, що записуються в пам'ять, покращує ефективність використання L2-кешу і зменшує кількість даних, що пересилаються між різними точками GPU, на зразок TMU і фреймбуфера.

GPU Boost 3.0 та особливості розгону

Більшість партнерів компанії Nvidia вже анонсували фабрично розігнані рішення на основі GeForce GTX 1080 і GTX 1070. А багато виробників відеокарт створюють і спеціальні утиліти для розгону, що дозволяють використовувати нову функціональність технології GPU Boost 3.0. Одним з прикладів таких утиліт є EVGA Precision XOC, яка включає автоматичний сканер для визначення кривої співвідношення напруги і частоти - в цьому режимі для кожного із значень напруги за допомогою запуску тесту стабільності знаходиться стабільна частота, при якій GPU забезпечує зростання продуктивності. Втім, цю криву можна змінювати і вручну.

Технологію GPU Boost ми добре знаємо за попередніми відеокартами компанії Nvidia. У своїх графічних процесорах вони застосовують цю апаратну особливість, призначену для збільшення робочої тактової частоти GPU в режимах, коли він ще не досяг меж за енергоспоживанням і тепловиділенням. У графічних процесорах Pascal цей алгоритм зазнав кількох змін, основним у тому числі стала тонша установка турбо-частот, залежно від напруги.

Якщо раніше різниця між базовою частотою та турбо-частотою була фіксованою, то у GPU Boost 3.0 з'явилася можливість встановлення зсувів турбо-частот для кожної напруги окремо. Тепер турбо-частота може встановлюватись для кожного з індивідуальних значень напруги, що дозволяє повністю вичавлювати всі можливості розгону з GPU. Ми докладно писали про цю можливість у огляді GeForce GTX 1080, і для цього можна використовувати утиліти EVGA Precision XOC та MSI Afterburner.

Так як у методиці розгону з виходом відеокарт із підтримкою GPU Boost 3.0 змінилися деякі деталі, то Nvidia довелося зробити додаткові пояснення в інструкції з розгону новинок. Існують різні методики розгону з різними змінними характеристиками, які впливають підсумковий результат. Для кожної конкретної системи може краще підійти певний метод, але основа завжди приблизно однакова.

Багато оверклокерів для перевірки стабільності системи використовують бенчмарк Unigine Heaven 4.0, який відмінно завантажує графічний процесор роботою, має гнучкі налаштування і може бути запущений у віконному режимі разом з вікном утиліти для розгону і моніторингу поруч, на зразок EVGA Precision або MSI Afterbur. Втім, такої перевірки достатньо лише для початкових прикидок, а для міцного підтвердження стабільності розгону, його необхідно перевірити в кількох ігрових додатках, тому що різні ігри передбачають навантаження на різні функціональні блоки GPU: математичні, текстурні, геометричні. Бенчмарк Heaven 4.0 також зручний для задачі розгону тому, що в ньому є закільцований режим роботи, в якому зручно змінювати налаштування розгону та є бенчмарк для оцінки приросту швидкості.

Nvidia радить при розгоні нових відеокарт GeForce GTX 1080 та GTX 1070 запускати вікна Heaven 4.0 та EVGA Precision XOC спільно. Спочатку бажано відразу підвищити швидкість обертання вентилятора. І для серйозного розгону можна відразу виставляти значення швидкості на 100%, що зробить роботу відеокарти дуже гучною, але максимально охолодить GPU та інші компоненти відеокарти, знизивши температуру на мінімально можливий рівень, запобігши тротлінгу (зниження частот через зростання температури GPU вище за певне значення ).

Далі потрібно встановити цільове значення живлення (Power Target) також максимум. Це налаштування дозволить забезпечити графічний процесор максимально можливою кількістю енергії, підвищивши рівень енергоспоживання та цільову температуру GPU (GPU Temp Target). В деяких цілях, друге значення можна відокремити від зміни Power Target, і тоді ці налаштування можна буде налаштовувати індивідуально - для досягнення меншого нагрівання відео, наприклад.

Наступним кроком йде збільшення значення приросту частоти відеочіпа (GPU Clock Offset) – воно означає, наскільки більшою буде турбо-частота під час роботи. Це значення підвищує частоту всім значень напруги і призводить до більшої продуктивності. Як завжди, при розгоні потрібно перевіряти стабільність при підвищенні частоти GPU невеликими кроками - від 10 МГц до 50 МГц на крок до того, як буде відзначено зависання, помилка драйвера або програми або навіть візуальні артефакти. При досягненні такого ліміту слід знизити значення частоти на крок вниз і перевірити ще раз стабільність і продуктивність при розгоні.

Крім частоти GPU, можна також збільшити і частоту відеопам'яті (Memory Clock Offset), що особливо важливо у випадку GeForce GTX 1070, оснащеної GDDR5-пам'яттю, яка зазвичай непогано розганяється. Процес у разі частоти роботи пам'яті точно повторює те, що робиться при знаходженні стабільної частоти GPU, єдина різниця в тому, що кроки можна робити більше - додавати відразу по 50-100 МГц до базової частоти.

Крім описаних вище кроків, можна збільшити і межу напруги (Overvoltage), адже більш висока частота графічного процесора часто досягається при підвищеній напрузі, коли частини GPU, що працюють нестабільно, отримують додаткове живлення. Щоправда, потенційним мінусом підвищення даного значення є можливість пошкодження відеочіпа та прискореного виходу його з ладу, тому потрібно використовувати підвищення напруги з особливою обережністю.

Любителі розгону використовують дещо різні методики, змінюючи параметри в різному порядку. Наприклад, деякі оверклокери поділяють досліди щодо знаходження стабільної частоти GPU та пам'яті, щоб вони не заважали один одному, а потім тестують комбінований розгін та відеочіпа та мікросхем пам'яті, але це вже – несуттєві деталі індивідуального підходу.

Судячи з думок у форумах і коментарях до статей, деяким користувачам не сподобався новий алгоритм роботи GPU Boost 3.0, коли частота GPU спочатку задирається дуже високо, найчастіше вище турбо-частоти, але потім, під впливом зростання температури GPU або зростання енергоспоживання вище встановленого межі, вона може опуститися до значно менших значень. Це просто специфіка роботи оновленого алгоритму, потрібно звикнути до нової поведінки частоти GPU, що динамічно змінюється, але ніяких негативних наслідків вона не несе.

Відеокарта GeForce GTX 1070 стала другою після GTX 1080 моделлю у новій лінійці компанії Nvidia, заснованої на графічних процесорах сімейства Pascal. Новий технологічний процес 16 нм FinFET та оптимізації архітектури дозволили представленій відеокарті досягти високої тактової частоти, у чому їй допомагає і нове покоління технології GPU Boost. Навіть незважаючи на урізану кількість функціональних блоків у вигляді потокових процесорів та текстурних модулів, їх кількість залишилася достатньою для того, щоб GTX 1070 стала найвигіднішим та енергоефективним рішенням.

Установка на молодшу з кількох випущених моделей відеокарт Nvidia на чіпі GP104 пам'яті стандарту GDDR5, на відміну від нового типу GDDR5X, яким відрізняється GTX 1080, не заважає їй досягти високих показників продуктивності. По-перше, у Nvidia вирішили не урізати шину пам'яті моделі GeForce GTX 1070, а по-друге, на неї поставили найшвидшу GDDR5-пам'ять з ефективною частотою в 8 ГГц, що лише трохи нижче 10 ГГц у застосовуваної старшої моделі GDDR5X. Враховуючи ще й покращені алгоритми дельта-стиснення, ефективна пропускна здатність пам'яті графічного процесора стала вищою за цей же параметр у аналогічної моделі попереднього покоління GeForce GTX 970.

GeForce GTX 1070 хороша тим, що пропонує дуже високу продуктивність та підтримку нових можливостей та алгоритмів за значно меншою ціною, порівняно зі старшою моделлю, анонсованою трохи раніше. Якщо придбання GTX 1080 за 55 000 собі зможуть дозволити одиниці ентузіастів, то викласти 35 000 за лише на чверть менш продуктивне рішення рівно з тими ж можливостями зможе вже куди більше коло потенційних покупців. Саме поєднання порівняно низької ціни та високої продуктивності зробило GeForce GTX 1070, мабуть, найвигіднішим придбанням на момент її випуску.

Графічний прискорювач GeForce GTX 1060

ПараметрЗначення
Кодове ім'я чіпаGP106
Технологія виробництва16 нм FinFET
Кількість транзисторів4,4 млрд.
Площа ядра200 мм²
АрхітектураУніфікована, з масивом загальних процесорів для потокової обробки численних видів даних: вершин, пікселів та ін.
Апаратна підтримка DirectXDirectX 12, з підтримкою рівня можливостей Feature Level 12_1
Шина пам'яті192-бітна: шість незалежних 32-бітових контролерів пам'яті з підтримкою GDDR5 пам'яті
Частота графічного процесора1506 (1708) МГц
Обчислювальні блоки10 потокових мультипроцесорів, що включають 1280 скалярних ALU для розрахунків із плаваючою комою в рамках стандарту IEEE 754-2008;
Блоки текстурування80 блоків текстурної адресації та фільтрації з підтримкою FP16- та FP32-компонент у текстурах та підтримкою трилінійної та анізотропної фільтрації для всіх текстурних форматів
Блоки растрових операцій (ROP)6 широких блоків ROP (48 пікселів) з підтримкою різних режимів згладжування, у тому числі програмованих і при FP16 або FP32 форматі буфера кадру. Блоки складаються з масиву конфігурованих ALU і відповідають за генерацію та порівняння глибини, мультисемплінг та блендинг
Підтримка моніторівІнтегрована підтримка до чотирьох моніторів, підключених за інтерфейсами Dual Link DVI, HDMI 2.0b та DisplayPort 1.2 (1.3/1.4 Ready)

Специфікації референсної відеокарти GeForce GTX 1060
ПараметрЗначення
Частота ядра1506 (1708) МГц
Кількість універсальних процесорів1280
Кількість текстурних блоків80
Кількість блоків блендінгу48
Ефективна частота пам'яті8000 (4×2000) МГц
Тип пам'ятіGDDR5
Шина пам'яті192-біт
Обсяг пам'яті6 ГБ
Пропускна спроможність пам'яті192 ГБ/с
Обчислювальна продуктивність (FP32)близько 4 терафлопс
Теоретична максимальна швидкість забарвлення72 гігапікселі/с
Теоретична швидкість вибірки текстур121 гігатекселів/с
ШинаPCI Express 3.0
Роз'ємиОдин роз'єм Dual Link DVI, один HDMI та три DisplayPort
Типове енергоспоживання120 Вт
Додаткове харчуванняОдин 6-контактний роз'єм
Число слотів, які займають у системному корпусі2
Рекомендована ціна$249 ($299) у США та 18 990 у Росії

Відеокарта GeForce GTX 1060 також отримала найменування, схоже з таким же рішенням із попередньої серій GeForce, що відрізняється від імені свого прямого попередника GeForce GTX 960 лише зміненою першою цифрою покоління. Новинка стала в поточній лінійці компанії на крок нижче рішення GeForce GTX 1070, що вийшло раніше, і є середнім за швидкістю в новій серії.

Рекомендовані ціни на нову відеоплату компанії Nvidia становлять $249 та $299 для звичайних версій партнерів компанії та для спеціального видання Founder's Edition відповідно. У порівнянні з двома старшими моделями це дуже вигідна ціна, так як нова модель GTX 1060 хоч і поступається топовим платам, але далеко не настільки, наскільки вона їх дешевша. На момент анонсу новинка абсолютно точно стала найкращим за продуктивністю рішенням у своєму класі та однією з найбільш вигідних пропозицій у цьому ціновому діапазоні.

Дана модель відеокарти сімейства Pascal компанії Nvidia вийшла для протидії новим рішенням конкуруючої компанії AMD, яка трохи раніше випустила на ринок Radeon RX 480. Порівнювати новинку Nvidia з цією відеокартою можна, хоча і не зовсім безпосередньо, так як вони все ж таки досить відчутно відрізняються за ціною . GeForce GTX 1060 дорожче ($249-299 проти $199-229), але і явно швидше конкурента.

Графічний процесор GP106 має 192-бітну шину пам'яті, тому обсяг встановленої на відеокарту пам'яті з такою шиною може дорівнювати 3 або 6 ГБ. Меншого значення в сучасних умовах відверто недостатньо, і багато ігрових проектів навіть у Full HD-дозвіл впиратимуться в брак відеопам'яті, що серйозно позначиться на плавності рендерингу. Щоб забезпечити максимальну продуктивність нового рішення в умовах високих налаштувань, модель відеокарти GeForce GTX 1060 була оснащена 6 ГБ відеопам'яті, чого вистачить для запуску будь-яких 3D-додатків з будь-якими налаштуваннями якості. Більше того, на сьогодні різниці між 6 та 8 ГБ просто немає, а трохи грошей таке рішення заощадить.

Значення типового енергоспоживання для новинки становить 120 Вт, що менше значення для GTX 1070 на 20% і дорівнює споживанню енергії відеокартою попереднього покоління GeForce GTX 960, що має значно меншу продуктивність і можливості. Референсна плата має звичний набір роз'ємів для приєднання пристроїв виведення зображення: один Dual-Link DVI, один HDMI та три DisplayPort. З'явилася підтримка нових версій HDMI і DisplayPort, про яку ми писали в огляді моделі GTX 1080.

Довжина референсної плати GeForce GTX 1060 дорівнює 9,8 дюйма (25 см), а з відмінностей від старших варіантів окремо відзначимо те, що GeForce GTX 1060 не підтримує конфігурацію багаточіпового рендерингу SLI, і не має спеціального роз'єму для цього. Оскільки плата споживає менше енергії, ніж старші моделі, то додаткового харчування на плату встановили один 6-контактный роз'єм PCI-E зовнішнього харчування.

Відеокарти GeForce GTX 1060 з'явилися на ринку з дня анонсу у вигляді продукції партнерів компанії: Asus, EVGA, Gainward, Gigabyte, Innovision 3D, MSI, Palit, Zotac. В обмеженій кількості буде випущено і спеціальне видання GeForce GTX 1060 Founder's Edition, вироблене самою компанією Nvidia, яке продаватиметься за ціною $299 виключно на сайті компанії Nvidia і офіційно представлено в Росії не буде. Founder's Edition відрізняється тим, що вона виготовлена ​​з високоякісних матеріалів та компонентів, включаючи алюмінієвий корпус, та використовує ефективну систему охолодження, а також ланцюги живлення з низьким опором та регуляторами напруги спеціального дизайну.

Архітектурні зміни

Відеокарта GeForce GTX 1060 заснована на абсолютно новому графічному процесорі моделі GP106, який функціонально нічим не відрізняється від первістка архітектури Pascal у вигляді чіпа GP104, на якому засновані описані вище моделі GeForce GTX 1080 і GTX 1070. Ця архітектура взяла в основу рішення, Maxwell, але в ній є деякі функціональні відмінності, про які ми докладно написали раніше.

Відеочіп GP106 по своєму пристрої схожий з топовим чіпом Pascal та аналогічними рішеннями архітектури Maxwell, і докладні дані про пристрій сучасних GPU ви можете знайти у наших оглядах попередніх рішень компанії Nvidia. Як і попередні графічні процесори, чіпи нової архітектури мають різну конфігурацію обчислювальних кластерів Graphics Processing Cluster (GPC), потокових мультипроцесорів Streaming Multiprocessor (SM) та контролерів пам'яті:

Графічний процесор GP106 має у своєму складі два кластери GPC, що складаються з 10 потокових мультипроцесорів (Streaming Multiprocessor - SM), тобто рівно половину від наявного в GP104. Як і в старшому GPU, кожен з мультипроцесорів містить 128 обчислювальних ядер, 8 текстурних блоків TMU, 256 КБ регістрової пам'яті, 96 КБ загальної пам'яті і 48 КБ кеш-пам'яті першого рівня. В результаті, GeForce GTX 1060 містить загалом 1280 обчислювальних ядер та 80 текстурних модулів - удвічі менше, ніж у GTX 1080.

А ось підсистема пам'яті GeForce GTX 1060 не була урізана вдвічі щодо топового рішення, вона містить шість 32-бітних контролерів пам'яті, що дають підсумкову 192-бітну шину. При ефективній частоті GDDR5-відеопам'яті для GeForce GTX 1060, що дорівнює 8 ГГц, пропускна здатність досягає 192 ГБ/с, що для вирішення такого цінового сегмента дуже непогано, особливо з урахуванням високої ефективності її використання Pascal. До кожного з контролерів пам'яті прив'язані вісім блоків ROP та 256 КБ кеш-пам'яті другого рівня, тому загалом повна версія графічного процесора GP106 містить 48 блоків ROP та 1536 КБ L2-кешу.

Для зниження вимог до пропускної спроможності пам'яті та більш ефективного використання наявної в архітектурі Pascal було додатково покращено внутрішньочіпове стиснення інформації без втрат, яке здатне стискати дані в буферах, отримуючи приріст ефективності та продуктивності. Зокрема, у чіпах нової родини були додані нові методи дельта-стиснення із співвідношенням 4:1 та 8:1, що забезпечують додаткові 20% до ефективності ПСП порівняно з попередніми рішеннями сімейства Maxwell.

Базова частота нового GPU дорівнює 1506 МГц – нижче цієї позначки частота не повинна опускатися в принципі. Типова турбо-частота (Boost Clock) набагато вища і дорівнює 1708 МГц – це середнє значення реальної частоти, на якій працює графічний чіп GeForce GTX 1060 у великому наборі ігор та 3D-додатків. Реальна Boost-частота залежить від гри та умов, у яких відбувається тестування.

Як і решта рішень сімейства Pascal, модель GeForce GTX 1060 не просто працює на високій тактовій частоті, забезпечуючи високу продуктивність, але має і пристойний запас по можливості розгону. Перші досліди говорять про можливість досягнення частот 2 ГГц. Не дивно, що партнери компанії готують навіть фабрично розігнані варіанти відеокарти моделі GTX 1060.

Отже, головною зміною нової архітектури став технологічний процес 16 нм FinFET, застосування якого при виробництві GP106 дозволило значно підвищити складність чіпа при збереженні порівняно невисокої площі 200 мм², тому даний чіп архітектури Pascal має помітно більшу кількість виконавчих блоків у порівнянні з чіпом Maxwell. , Виготовленим із застосуванням техпроцесу 28 нм.

Якщо GM206 (GTX 960) з площею 227 мм² мав під 3 млрд. транзисторів і 1024 ALU, 64 TMU, 32 ROP і 128-бітну шину, то новий GPU вмістив у 200 мм² вже 4,4 млрд. транзисторів, 128 80 TMU та 48 ROP з 192-бітною шиною. Та ще за майже півтора разу вищої частоті: 1506 (1708) проти 1126 (1178) МГц. І це за однакового енергоспоживання в 120 Вт! У результаті, графічний процесор GP106 став одним із найенергоефективніших графічних процесорів, разом із GP104.

Нові технології Nvidia

Однією з найцікавіших технологій компанії, що підтримується GeForce GTX 1060 та іншими рішеннями сімейства Pascal, є технологія Nvidia Simultaneous Multi-Projection. Ми вже писали про цю технологію в огляді GeForce GTX 1080, що дозволяє використовувати кілька нових технік для оптимізації рендерингу. Зокрема – одночасно проектувати VR-зображення одразу для двох очей, у рази підвищуючи ефективність використання GPU в умовах віртуальної реальності.

Для підтримки SMP у всіх графічних процесорах сімейства Pascal є спеціальний двигун, який знаходиться в PolyMorph Engine наприкінці геометричного конвеєра перед блоком растеризації. З його допомогою GPU може одночасно проектувати геометричний примітив на кілька проекцій з однієї точки, при цьому ці проекції можуть бути стерео (тобто підтримується до 16 або 32 проекцій одночасно). Ця можливість дозволяє графічним процесорам Pascal точно відтворювати викривлену поверхню для VR-рендерінгу, а також коректно виводити зображення на багатомоніторні системи.

Важливо, що технологія Simultaneous Multi-Projection вже зараз інтегрується в популярні ігрові движки (Unreal Engine і Unity) та ігри, і на сьогоднішній день про підтримку технології заявлено для більш ніж 30 ігор, що знаходяться в розробці, включаючи такі відомі проекти, як Unreal Tournament , Poolnation VR, Everest VR, Obduction, Adr1ft та Raw Data. Цікаво, що хоча Unreal Tournament не є VR-грою, але в ній SMP використовується для досягнення якіснішої картинки та підвищення продуктивності.

Ще однією довгоочікуваною технологією став потужний інструмент для створення скріншотів в іграх Nvidia Ansel. Цей інструмент дозволяє створювати незвичайні та дуже якісні скріншоти з ігор, з раніше недоступними можливостями, зберігаючи їх у дуже високій роздільній здатності та доповнюючи різними ефектами, та ділитися своїми творами. Ansel дозволяє буквально побудувати скріншот так, як цього хоче художник, дозволяючи встановити камеру з будь-якими параметрами в будь-яку точку сцени, накласти на зображення потужні постфільтри або навіть зробити 360-градусний знімок для перегляду віртуальної реальності в шоломі.

Nvidia стандартизувала інтеграцію інтерфейсу користувача Ansel в ігри, і зробити це дуже просто - достатньо додати в код кілька рядків. Чекати на появу цієї можливості в іграх вже не потрібно, оцінити здібності Ansel прямо зараз можна в грі Mirror's Edge: Catalyst, а трохи пізніше вона стане доступною і у Witcher 3: Wild Hunt. Крім цього, в розробці знаходяться безліч ігрових проектів з підтримкою Ansel, включаючи такі ігри, як Fortnite, Paragon і Unreal Tournament, Obduction, Witness, Lawbreakers, Tom Clancy's The Division, No Man's Sky та інші.

Також новий графічний процесор GeForce GTX 1060 підтримує пакет інструментів Nvidia VRWorks, що допомагає розробникам створювати вражаючі проекти для віртуальної реальності Цей пакет включає безліч утиліт та інструментів для розробників, у тому числі і VRWorks Audio, що дозволяє виконувати дуже точний розрахунок відбитків звукових хвиль від об'єктів сцени за допомогою трасування променів на GPU. Також пакет включає інтеграцію у VR та фізичних ефектів PhysX, щоб забезпечити фізично коректну поведінку об'єктів у сцені.

Однією з найяскравіших віртуальних ігор, що отримала перевагу від VRWorks, стала VR Funhouse – гра у віртуальній реальності самої Nvidia, яка безкоштовно доступна у сервісі Valve Steam. Ця гра заснована на двигуні Unreal Engine 4 (Epic Games), і вона працює на відеокартах GeForce GTX 1080, 1070 та 1060 у зв'язці з VR-шоломами HTC Vive. Мало того, вихідний код цієї гри буде публічно доступний, що дозволить іншим розробникам використовувати готові ідеї та код вже у своїх VR-атракціонах. Повірте нам на слово, це одна із найбільш вражаючих демонстрацій можливостей віртуальної реальності.

У тому числі завдяки технологіям SMP і VRWorks, використання графічного процесора GeForce GTX 1060 у VR-додатках забезпечує цілком достатню для початкового рівня віртуальної реальності продуктивність, і GPU відповідає мінімальному необхідному апаратному рівню в тому числі для SteamVR, стаючи одним з найбільш вдалих використання у системах з офіційною підтримкою VR.

Так як модель GeForce GTX 1060 заснована на чіпі GP106, який по можливостях нічим не поступається графічному процесору GP104, що став основою для старших модифікацій, вона підтримує абсолютно всі технології, описані нами вище.

Відеокарта GeForce GTX 1060 стала третьою моделлю у новій лінійці компанії Nvidia, заснованої на графічних процесорах сімейства Pascal. Новий технологічний процес 16 нм FinFET та оптимізації архітектури дозволили всім новим відеокартам досягти високої тактової частоти та розмістити у GPU більшу кількість функціональних блоків у вигляді потокових процесорів, текстурних модулів та інших, у порівнянні з відеочіпами попереднього покоління. Саме тому модель GTX 1060 стала найвигіднішим і енергоефективним рішенням і у своєму класі, і взагалі.

Особливо важливо те, що GeForce GTX 1060 пропонує досить високу продуктивність та підтримку нових можливостей та алгоритмів за значно меншою ціною, порівняно зі старшими рішеннями на GP104. Графічний чіп GP106, що використовується в новій моделі, забезпечує найкращу в класі продуктивність та енергоефективність. Модель GeForce GTX 1060 спеціально спроектована і відмінно підійде для всіх сучасних ігор при високих і максимальних графічних налаштуваннях з роздільною здатністю 1920x1080 і навіть з увімкненим повноекранним згладжуванням різними методами (FXAA, MFAA або MSAA).

А для охочих отримати ще більш високу продуктивність за наявності дисплеїв з надвисокою роздільною здатністю, у Nvidia є топові моделі відеокарт GeForce GTX 1070 і GTX 1080, які також дуже хороші за продуктивністю та енергоефективністю. І все ж поєднання низької ціни та достатньої продуктивності дуже вигідно відрізняє GeForce GTX 1060 на фоні старших рішень. У порівнянні з конкуруючою Radeon RX 480, рішення Nvidia дещо швидше при меншій складності та площі GPU, і має значно кращу енергоефективність. Щоправда, вона продається дещо дорожче, так що кожна відеокарта має власну нішу.

Ми переходимо до ще однієї особливості GeForce GTX 1080, яка зробила цю модель першою у своєму роді – підтримкою пам'яті GDDR5X. У цій якості GTX 1080 якийсь час буде єдиним продуктом на ринку, оскільки вже відомо, що GeForce GTX 1070 буде укомплектований стандартними чіпами GDDR5. У поєднанні з новими алгоритмами компресії кольору (про це трохи пізніше) висока ПСП (пропускна здатність пам'яті) дозволить GP104 більш ефективно розпоряджатися наявними обчислювальними ресурсами, ніж це могли собі дозволити продукти на базі чіпів GM104 і GM200.

JEDEC випустила фінальні специфікації нового стандарту лише у січні цього року, а єдиним виробником GDDR5X на даний момент є компанія Micron. На 3DNews не було окремого матеріалу, присвяченого цій технології, тому ми коротко опишемо ті нововведення, які приносить GDDR5X у цьому огляді.

Протокол GDDR5X має багато спільного з GDDR5 (хоча електрично і фізично ті та інші чіпи різняться) - на відміну від пам'яті HBM, яка є принципово інший тип, що робить робить практично неможливим співіснування з інтерфейсом GDDR5(X) в одному GPU. Тому GDDR5X називається саме так, а не, наприклад, GDDR6.

Одне з ключових відмінностей між GDDR5X і GDDR5 полягає у можливості передачі чотирьох біт даних на одному циклі сигналу (QDR - Quad Data Rate) на противагу двом бітам (DDR - Double Data Rate), як це було у всіх попередніх модифікаціях пам'яті DDR SDRAM. Фізичні частоти ядер пам'яті та інтерфейсу передачі даних розташовуються приблизно в тому ж діапазоні, що у чіпів GDDR5.

А щоб наситити даними зрослу пропускну здатність чіпів, в GDDR5X застосовується збільшена з 8n до 16n передвиборка даних (prefetch). При 32-бітному інтерфейсі окремого чіпа це означає, що контролер за один цикл доступу до пам'яті вибирає вже не 32, а 64 байти даних. У результаті результуюча пропускна спроможність інтерфейсу досягає 10-14 Гбіт/с на контакт при частоті CK (command clock) 1250-1750 МГц – саме цю частоту показують утиліти для моніторингу та розгону відеокарт – такі, як GPU-Z. Принаймні зараз у стандарт закладено такі показники, але в майбутньому Micron планує досягти чисел аж до 16 Гбіт/с.

Наступна перевага GDDR5X полягає у збільшеному обсязі чіпа – з 8 до 16 Гбіт. GeForce GTX 1080 комплектується вісьмома чіпами по 8 Гбіт, але надалі виробники графічних карток зможуть подвоїти об'єм RAM у міру появи більш ємних мікросхем. Як і GDDR5, GDDR5X допускає використання двох чіпів на одному 32-бітному контролері в так званому clamshell mode, що в результаті дозволяє адресувати 32 Гбайт пам'яті на 256-бітній шині GP104. Крім того, стандарт GDDR5X крім рівних ступеня двійки описує об'єми чіпа в 6 і 12 Гбіт, що дозволить варіювати загальний обсяг набірної пам'яті відеокарт «дрібніше» - наприклад, оснастити карту з 384-бітною шиною RAM чіпами на сумарні 9 Гбайт.

Всупереч очікуванням, які супроводжували першу інформацію про GDDR5X, що з'явилася у відкритому доступі, енергоспоживання нового типу пам'яті порівняно з таким у GDDR5 або трохи перевищує останнє. Щоб компенсувати збільшену потужність на високих значеннях пропускної спроможності, творці стандарту знизили напругу живлення ядер з 1,5 В, стандартних для GDDR5, до 1,35 В. Крім того, стандарт як обов'язковий захід вводить управління частотою чіпів в залежності від показників температурного датчика . Поки невідомо, наскільки нова пам'ять насправді залежить від якості тепловідведення, але не виключено, що ми тепер частіше бачитимемо на відеокартах системи охолодження, які обслуговують не тільки GPU, а й чіпи RAM, тоді як виробники карток на базі GDDR5 у своїй масі нехтують цією можливістю.

Може виникнути враження, що перехід з GDDR5 на GDDR5X був нескладним завданням для NVIDIA через спорідненість даних технологій. До того ж, GeForce GTX 1080 комплектується пам'яттю з найменшою пропускною здатністю, визначеною стандартом – 10 Гбіт/с на контакт. Однак практична реалізація нового інтерфейсу пов'язана з багатьма інженерними труднощами. Передача даних на таких високих частотах вимагає ретельної розробки топології шини даних на платі з метою мінімізувати наведення і згасання сигналу в провідниках.

Результуюча пропускна здатність 256-бітної шини в GeForce GTX 1080 становить 320 Гбайт/с, що несуттєво менше швидкості 336 Гбайт/с, якою характеризується GeForce GTX 980 Ti (TITAN X) з його 384-бітною шиною GDDR5 при 7 .

Тепер PolyMorph Engine може створювати одночасно до 16 проекцій (viewport'ів), розміщених довільним чином, і сфокусованих на одній або двох точках, зрушених по горизонтальній осі відносно один одного. Дані перетворення виконуються виключно в «залізі» і не викликають зниження продуктивності як такого.

Ця технологія має два цілком передбачуваних застосування. Перше – це шоломи VR. За рахунок двох центрів проекції Pascal може створювати стерео-зображення за один прохід (втім, йдеться тільки про геометрію - GPU, як і раніше, доведеться зробити вдвічі більше роботи, щоб виконати розтеризацію текстур у двох кадрах).

З іншого боку, SMP дозволяє лише на рівні геометрії виконувати компенсацію спотворення картинки, яку вносять лінзи шолома. Для цього зображення для кожного ока формується чотирма окремими проекціями, які потім склеюються в площину із застосуванням пост-обробки фільтра. Таким чином не тільки досягається геометрична точність підсумкового зображення, але і знімається необхідність в обробці 1/3 пікселів, які інакше були б втрачені при фінальній корекції стандартної плоскої проекції під кривизну лінз.

Єдина оптимізація для VR, якою володів Maxwell, полягала в тому, що периферичні зони зображення, які компресуються найбільше для виведення через лінзи, могли рендеруватися зі зниженим дозволом, що давало економію пропускної спроможності лише на 10-15%.

Наступна область, в якій потрібна функція SMP, – це мультимоніторні конфігурації. Без SMP зображення на декількох стикованих дисплеях є площиною з точки зору GPU, і виглядає геометрично коректно за умови, що екрани перед глядачем вибудовані в лінію, але стикування під кутом вже не виглядає коректно - якби ви просто зігнули в декількох місцях велику фотографію . Не кажучи вже про те, що у будь-якому разі глядач бачить саме плоске зображення, а не вікно у віртуальний світ: якщо повернути голову до бокового екрану, об'єкти в ньому залишаться розтягнутими, оскільки віртуальна камера, як і раніше, дивиться у центральну точку.

За допомогою SMP драйвер відеокарти може отримати інформацію про фізичне розташування кількох екранів для того, щоб проектувати зображення для кожного з них через власний viewport, що зрештою функціонально наближає мультимоніторну збірку до повноцінного «вікна».

Коротко, завдання потрійної буферизації в тому, щоб відокремити процес рендерингу нових кадрів в конвеєрі GPU від сканування зображення з кадрового буфера за рахунок того, що відеокарта може створювати нові кадри з якою завгодно високою частотою, записуючи їх в два кадрових буфера, що змінюються. При цьому вміст останнього кадру з частотою, кратною частоті оновлення екрана, копіюється в третій буфер, звідки монітор може його забрати без розривів картинки. Таким чином, кадр, який потрапляє на екран, на момент початку сканування завжди містить останню інформацію, яку зробив GPU.

Потрійна буферизація найбільш корисна для моніторів із частотою оновлення екрана 50-60 Гц. При частотах 120-144 Гц, як ми вже писали у статті, присвяченій G-Sync, включення вертикальної синхронізації вже, в принципі, збільшує латентність несуттєво, але Fast Sync прибере її до мінімуму.

Якщо ви ставите питання, як Fast Sync співвідноситься з G-Sync (і її аналогом Free Sync від AMD - але це суто теоретичне питання, тому що NVIDIA підтримує тільки свій варіант), то G-Sync знижує латентність у ситуації, коли GPU не встигає зробити новий кадр до моменту початку сканування, а Fast Sync - навпаки, знижує латентність, коли частота оновлення кадрів у конвеєрі рендерингу вища за частоту оновлення екрана. До того ж ці технології можуть працювати спільно.

GeForce GTX 1080 Founder's Edition:конструкція

Цим пишним ім'ям тепер називається референсна версія GeForce GTX 1080. Починаючи з GeForce GTX 690 NVIDIA приділяє велику увагу тому, в якій формі нові продукти їх виходять на ринок. Референсні зразки сучасних відеокарт під маркою GeForce далекі від своїх непоказних попередників, які оснащувалися порівняно неефективними та галасливими системами охолодження.

GeForce GTX 1080 Founder's Edition увібрав у себе кращі риси дизайну відеокарт Kepler і Maxwell: алюмінієвий кожух турбіни, крильчатка кулера, виготовлена ​​з малошумного матеріалу, і масивна алюмінієва рама, що надає жорсткість конструкції і знімає тепло з мікросхем.


У складі GTX 1080 присутні одночасно два компоненти, які періодично з'являються, то пропадають з референсних відеокарт NVIDIA - радіатор GPU з випарною камерою і задня пластина. Остання частково демонтується без викрутки, щоб забезпечити приплив повітря кулер сусідньої відеокарти в режимі SLI.

Крім своєї представницької функції, референсний зразок відеокарти потрібен для того, щоб кінцеві виробники відеокарт могли закуповувати його – у даному випадку у NVIDIA – і задовольняти попит, доки не будуть готові пристрої оригінального дизайну на тому ж GPU. Але цього разу NVIDIA планує зберігати референсну версію у продажу протягом усього терміну життя моделі та розповсюджувати, серед іншого, через свій офіційний сайт. Так мотивована на $100 більш висока ціна GTX 1080 FE порівняно з рекомендованими для всіх інших $599. Зрештою, Founder's Edition не виглядає та не є дешевим продуктом.

У той же час, відеокарта має референсні частоти, нижче за які, як завжди, не опуститься жоден виробник карт оригінального дизайну. Не йдеться і про будь-який відбір GPU для GTX 1080 FE за розгінним потенціалом. Отже, у всій масі продажів GeForce GTX 1080 можуть виявитися і дорожчі. Але якийсь час Founder's Edition буде переважаючою і навіть єдиною версією флагманського Pascal, що автоматично підвищує його роздрібні ціни на $100 понад «рекомендації» NVIDIA.

Відеокарта GeForce GTX 1080 Ti має 11Гб пам'яті GDDR5X, частоту графічного процесора в 1583 МГц (з можливість розгону до 2000 МГц при штатній системі охолодження), частоту пам'яті в 11 ГГц QDR, а також продуктивність на 35% кращу, ніж у Ge 8 І це при зниженій ціні 699 $.

Нова відеокарта зміщує GeForce GTX 1080 з позиції флагмана в лінійці GeForce і стає найшвидшоюграфічною картою, що існує на сьогоднішній день, а також найпотужнішою карткою на архітектурі Pascal.

Найпотужніша ігрова карта NVIDIA GeForce GTX 1080 Ti

NVIDIA GeForce GTX 1080 Ti є мрією геймерів, які зможуть нарешті насолоджуватися останніми іграми класу ААА, грати у шоломах віртуальної реальності на високій якості, насолоджуючись чіткістю та точністю графіки.

GTX 1080 Ti розроблялася як перша повноцінна відеокарта для ігор 4K. Вона оснащена найновішим і найтехнологічнішим залізом, яким не може похвалитися жодна інша відеокарта на сьогоднішній день.

Ось офіційна презентація NVIDIA GeForce GTX 1080 Ti

«Настав час для чогось нового. Того, що на 35% швидше за GTX 1080. Того, що швидше за Titan X. Давайте назвемо це максимальною…

Рік від року відеоігри ставали все прекраснішими, тому ми представляємо топовий продукт нового покоління, щоб ви могли насолоджуватися іграми нового покоління.»

Джен-Ксун

Характеристики NVIDIA GeForce GTX 1080 Ti

NVIDIA не поскупилася на начинку для своєї нової та надпотужної відеокарти.

Вона оснащена тим же графічним процесором Pascal GP102 GPU, що і Titan X (P), але перевершує останню за всіма показниками.

Процесор оснащений 12 млрд транзисторів і має шість кластерів для обробки графіки, два з яких блоковані. Це дає загалом 28 мультипотокових процесорівпо 128 ядер кожен.

Таким чином, відеокарта GeForce GTX 1080 Ti має 3584 ядри CUDA, 224 блоки відображення текстур і 88 ROP (блоки, що відповідають за z-буферизацію, згладжування, запис фінального зображення кадровий буфер відеопам'яті).

Діапазон розгону починається від 1582 МГц до 2ГГц. Архітектура Паскаль створювалася переважно для розгону у референсі та більш екстримального розгону у нестандартних моделях.

Відеокарта GeForce GTX 1080 Ti також має 11 Гб пам'яті GDDR5X, що працює через 352-бітну шину Флагман також оснащений найшвидшим рішенням G5X на сьогоднішній день.

З новою системою стиснення та плиткового кешування пропускна здатність відеокарти GTX 1080 Ti може бути збільшена до 1200 Гб/с, що перевищує досягнення технології AMD HBM2.

Специфікація NVIDIA GeForce GTX 1080 Ti:

Характеристики GTX TItan X Pascal GTX 1080 Ti GTX 1080
Техпроцес 16 нм 16нм 16 нм
Транзисторів 12 млрд 12 млрд 7.2 млрд
Площа кристала 471мм² 471мм² 314мм²
Пам'ять 12 Гб GDDR5X 11 Гб GDDR5X 8 Гб GDDR5X
Швидкість пам'яті 10 Гб/с 11 Гб/с 11 Гб/с
Інтерфейс пам'яті 384-біт 352-біт 256-біт
Пропускна здатність 480GB/s 484 GB/s 320GB/s
Ядер CUDA 3584 3584 2560
Базова частота 1417 1607
Частота при розгоні 1530МГц 1583 МГц 1730 МГц
Обчислювальна потужність 11 терафлопс 11.5 терафлопс 9 терафлопс
Теплова потужність 250Вт 250Вт 180Вт
Ціна 1200$ 699 US$ 499$

Охолодження відеокарти NVIDIA GeForce GTX 1080 Ti

GeForce GTX 1080 Ti Founders оснащена новим рішенням розподілу повітряного потоку, який дозволяє краще охолоджувати плату, а також робить це тихіше, ніж попередні дизайнерські рішення. Все це дає можливості сильніше розганяти відеокарту та досягати ще більшої швидкості. Крім того, ефективність охолодження покращена за рахунок 7-фазної схеми живленняна 14 dualFET-транзисторах високої ефективності.

GeForce GTX 1080 Ti поставляється з останнім NVTTM-дизайном, який представляє нову Vapor-камеру охолодження, в якій вдвічі більша площа охолодження, ніж Titan X (P). Цей новий тепловий дизайн допомагає домагатися оптимального охолодження та дозволяє прискорити графічний процесор відеокарти вище передбачених специфікацією показників із технологією GPU Boost 3.0.

NVIDIA GeForce GTX 1080 Ti - мрія оверклокера

Отже, що нам робити із цією вражаючою потужністю відеокарти? Відповідь очевидна - розганяти до краю. Під час евенту, NVIDIA продемонструвала видатний розгінний потенціал їхньої відеокарти GTX 1080 Ti. Нагадаємо, що їм вдалося досягти частоти процесора 2,03ГГц на блокованих 60 FPS.



Що ще почитати