Hem

Grafikkort. Lär känna GPU GP104 Pascal-korten

2016 går redan mot sitt slut, men hans bidrag till spelbranschen kommer att finnas kvar hos oss under lång tid. För det första fick grafikkort från det röda lägret en oväntat lyckad uppdatering i mellanprisklassen, och för det andra visade NVIDIA återigen att det inte är förgäves att det upptar 70% av marknaden. Maxwells var bra, GTX 970 ansågs med rätta vara ett av de bästa korten för pengarna, men Pascal är en helt annan sak.

Den nya generationen hårdvara inför GTX 1080 och 1070 begravde bokstavligen resultaten av förra årets system och flaggskeppsmarknaden för begagnad hårdvara, medan de "yngre" linjerna inför GTX 1060 och 1050 konsoliderade sina framgångar i mer prisvärda segment. Ägarna till GTX980Ti och andra Titans gråter av krokodiltårar: deras uber-guns för många tusen rubel förlorade 50% av kostnaden och 100% av show-off på en gång. NVIDIA själv hävdar att 1080:an är snabbare än förra årets TitanX, 1070:an "hopar" lätt 980Ti, och den relativt budget 1060 kommer att skada ägarna av alla andra kort.

Är det verkligen här benen på hög prestation växer ifrån och vad du ska göra med allt på tröskeln till semestern och plötsliga ekonomiska glädjeämnen, samt vad du ska glädja dig själv med, kan du ta reda på i denna långa och lite tråkiga artikel.

Du kan älska Nvidia eller ... inte älska det, men bara en hit från ett alternativt universum kommer att förneka att det för närvarande är ledande inom videoteknik. Eftersom AMD:s Vega inte har tillkännages ännu har vi inte sett flaggskeppet RX på Polaris än, och R9 Fury, med sina 4 GB experimentminne, kan inte riktigt betraktas som ett lovande kort (VR och 4K vill fortfarande lite mer än hon har) - vi har vad vi har. Medan 1080 Ti och villkorliga RX 490, RX Fury och RX 580 bara är rykten och förväntningar, har vi tid att reda ut den nuvarande NVIDIA-serien och se vad företaget har åstadkommit de senaste åren.

Röret och historien om Pascals ursprung

NVIDIA ger regelbundet skäl att "inte älska dig själv." Historien om GTX 970 och dess "3,5 GB minne", "NVIDIA, fuck you!" från Linus Torvalds, komplett pornografi i linje med skrivbordsgrafik, vägran att arbeta med det fria och mycket vanligare FreeSync-systemet till förmån för sitt eget proprietära ... I allmänhet finns det tillräckligt med skäl. En av de mest irriterande sakerna för mig personligen är vad som hände med de senaste två generationerna av grafikkort. Om vi ​​tar en grov beskrivning så har "moderna" GPU:er kommit från DX10-stödets dagar. Och om du letar efter "farfadern" i den 10:e serien idag, så kommer början av modern arkitektur att vara i området för den 400:e serien av videoacceleratorer och Fermi-arkitekturen. Det var i det som idén om en "block" design från den så kallade. "CUDA-kärnor" i NVIDIA-terminologi.

Fermi

Om grafikkort från 8000:e, 9000:e och 200:e serien var de första stegen i att bemästra själva konceptet, "modern arkitektur" med universella shader-processorer (som AMD, ja), så var 400:e serien redan så lik som möjligt vad vi se i några 1070. Ja, Fermi hade fortfarande en liten Legacy-krycka från tidigare generationer: shader-enheten arbetade med dubbelt så hög frekvens som kärnan som var ansvarig för att beräkna geometrin, men den övergripande bilden av vissa GTX 480 skiljer sig inte mycket från vissa andra 780:e, SM-multiprocessorer är klustrade, kluster kommunicerar genom en gemensam cache med minneskontroller, och resultatet av arbetet visas av ett rastreringsblock som är gemensamt för klustret:


Blockschema över GF100-processorn som används i GTX 480.

I den 500:e serien fanns det fortfarande samma Fermi, något förbättrad "inuti" och med mindre äktenskap, så topplösningarna fick 512 CUDA-kärnor istället för 480 för föregående generation. Visuellt verkar flödesscheman i allmänhet vara tvillingar:


GF110 är hjärtat i GTX 580.

På vissa ställen ökade de frekvenserna, ändrade lite designen på själva chippet, det var ingen revolution. Samma 40 nm processteknik och 1,5 GB videominne på en 384-bitars buss.

Kepler

Med tillkomsten av Kepler-arkitekturen har mycket förändrats. Vi kan säga att det var denna generation som gav NVIDIA-grafikkort den utvecklingsvektor som ledde till framväxten av nuvarande modeller. Inte bara arkitekturen för GPU:n har förändrats, utan också köket för att utveckla ny hårdvara inuti NVIDIA. Om Fermi var fokuserad på att hitta en lösning som skulle ge hög prestanda, då satsade Kepler på energieffektivitet, rimlig användning av resurser, höga frekvenser och enkel optimering av spelmotorn för kapaciteten hos en högpresterande arkitektur.

Allvarliga förändringar gjordes i designen av grafikprocessorn: inte "flaggskeppet" GF100 / GF110 togs som grund, utan "budgeten" GF104 / GF114, som användes i ett av den tidens mest populära kort - GTX 460.


Den övergripande processorarkitekturen har förenklats genom att endast använda två stora block med fyra enhetliga shader-multiprocessormoduler. Layouten för de nya flaggskeppen såg ut ungefär så här:


GK104 installerad i GTX 680.

Som du kan se har var och en av beräkningsenheterna ökat avsevärt i vikt i förhållande till den tidigare arkitekturen och har fått namnet SMX. Jämför blockets struktur med det som visas ovan i Fermi-avsnittet.


Multiprocessor SMX GPU GK104

Den sexhundrade serien hade inte grafikkort på en fullfjädrad processor som innehöll sex block av datormoduler, flaggskeppet var GTX 680 med GK104 installerad, och svalare än den var bara den "tvåhövdade" 690:an, på vilken bara två processorer framlades med alla nödvändiga bindningar och minne. Ett år senare förvandlades flaggskeppet GTX 680 med mindre ändringar till GTX 770, och kronan på utvecklingen av Kepler-arkitekturen var grafikkort baserade på GK110-kristallen: GTX Titan och Titan Z, 780Ti och den vanliga 780. Inuti - samma 28 nanometer, den enda kvalitativa förbättringen (som INTE gick till konsumentvideokort baserade på GK110) - prestanda med dubbel precisionsoperationer.

Maxwell

Det första grafikkortet baserat på Maxwell-arkitekturen var... NVIDIA GTX 750Ti. Lite senare dök dess nedskärningar upp i ansiktet av GTX 750 och 745 (levereras endast som en integrerad lösning), och vid tidpunkten för deras framträdande skakade de lägre korten verkligen upp marknaden för billiga videoacceleratorer. Den nya arkitekturen testades på GK107-chippet: en liten bit av framtida flaggskepp med enorma kylflänsar och ett skrämmande pris. Det såg ut ungefär så här:


Ja, det finns bara en datorenhet, men hur mycket mer komplicerad den är än sin föregångare, jämför själv:


Istället för ett stort block SMX, som användes som en grundläggande "byggsten" i skapandet av GPU:n, används nya, mer kompakta SMM-block. Keplers grundläggande beräkningsenheter var bra, men led av dåligt kapacitetsutnyttjande - en banal hunger efter instruktioner: systemet kunde inte sprida instruktioner över ett stort antal ställdon. Pentium 4 hade ungefär samma problem: strömmen var inaktiv och ett fel i grenförutsägelse var mycket dyrt. I Maxwell var varje datormodul uppdelad i fyra delar, som var och en fick sin egen instruktionsbuffert och varpschemaläggare - samma typ av operationer på en grupp trådar. Som ett resultat har effektiviteten ökat, och själva GPU:erna har blivit mer flexibla än sina föregångare, och viktigast av allt, till priset av lite blod och en ganska enkel kristall, har de arbetat fram en ny arkitektur. Historien går i en spiral, hehe.

Mest av allt har mobila lösningar gynnats av innovationer: kristallens yta har vuxit med en fjärdedel, och antalet exekveringsenheter för multiprocessorer har nästan fördubblats. Som tur var så var det 700:e och 800:e serierna som gjorde den största röran i klassificeringen. Bara inuti 700:an fanns det grafikkort baserade på Kepler-, Maxwell- och till och med Fermi-arkitekturen! Det är därför den stationära Maxwells, för att ta sig bort från tidigare generationers hodgepodge, fick en gemensam 900-serie, från vilken GTX 9xx M-mobilkorten sedan snurrade av.

Pascal - logisk utveckling av Maxwell-arkitekturen

Det som lades fast i Kepler och fortsatte i Maxwell-generationen fanns kvar i Pascals: de första konsumentvideokorten släpptes baserat på det inte särskilt stora GP104-chippet, som består av fyra grafikbearbetningskluster. Den fullstora, sex-kluster GP100 gick till en dyr semi-professionell GPU under varumärket TITAN X. Men även den "beskurna" 1080 lyser så att tidigare generationer känner sig sjuka.

Prestandaförbättring

grunden för stiftelserna

Maxwell blev grunden för den nya arkitekturen, diagrammet över jämförbara processorer (GM104 och GP104) ser nästan likadant ut, den största skillnaden är antalet multiprocessorer packade i kluster. Kepler (700:e generationen) hade två stora SMX-multiprocessorer, som var uppdelade i 4 delar vardera i Maxwell, vilket gav den nödvändiga bandningen (byte namn till SMM). I Pascal lades ytterligare två till de befintliga åtta i blocket, så att det blev 10 av dem, och förkortningen avbröts återigen: nu kallas enstaka multiprocessorer återigen SM.


Resten är en fullständig visuell likhet. Det var sant att det var ännu fler förändringar inuti.

Framstegsmotor

Det finns anständigt många förändringar inuti flerprocessorblocket. För att inte gå in på de väldigt tråkiga detaljerna om vad som gjordes om, hur det optimerades och hur det var innan, kommer jag att beskriva förändringarna väldigt kort, annars är det redan några som gäspar.

Först och främst korrigerade Pascal den del som är ansvarig för bildens geometriska komponent. Detta är nödvändigt för konfigurationer med flera bildskärmar och arbete med VR-hjälmar: med korrekt stöd från spelmotorn (och detta stöd kommer snart att dyka upp genom ansträngningar från NVIDIA), kan grafikkortet beräkna geometrin en gång och få flera geometriprojektioner för varje av skärmarna. Detta minskar belastningen avsevärt i VR, inte bara när det gäller att arbeta med trianglar (här är ökningen bara dubbelt), utan också när det gäller att arbeta med pixelkomponenten.

Den villkorliga 980Ti kommer att läsa geometrin två gånger (för varje öga) och sedan fylla den med texturer och utföra efterbehandling för var och en av bilderna, och bearbeta totalt cirka 4,2 miljoner punkter, varav cirka 70% faktiskt kommer att användas, resten kommer att skäras av eller falla in i området , som helt enkelt inte visas för vart och ett av ögonen.

1080 kommer att bearbeta geometrin en gång, och pixlar som inte faller in i den slutliga bilden kommer helt enkelt inte att beräknas.


Med pixelkomponenten är allt faktiskt ännu coolare. Eftersom att öka minnesbandbredden bara kan göras på två fronter (ökning av frekvens och bandbredd per klocka), och båda metoderna kostar pengar, och "hungern" på GPU:n vad gäller minne blir mer och mer uttalad med åren p.g.a. tillväxten i upplösning och utvecklingen av VR fortsätter att förbättra "fria" metoder för att öka bandbredden. Om du inte kan utöka bussen och höja frekvensen - måste du komprimera data. I tidigare generationer var hårdvarukomprimering redan implementerad, men i Pascal togs det till en ny nivå. Återigen kommer vi att klara oss utan tråkig matematik, och ta ett färdigt exempel från NVIDIA. Till vänster - Maxwell, till höger - Pascal, de punkter vars färgkomponent utsattes för förlustfri kompression är fyllda med rosa.


Istället för att överföra specifika brickor på 8x8 poäng innehåller minnet den "genomsnittliga" färgen + en matris av avvikelser från den, sådana data tar från ½ till ⅛ av den ursprungliga volymen. I verkliga uppgifter har belastningen på minnesundersystemet minskat från 10 till 30 %, beroende på antalet gradienter och enhetligheten hos fyllningar i komplexa scener på skärmen.


Detta verkade inte tillräckligt för ingenjörerna, och för flaggskeppets grafikkort (GTX 1080) användes minne med ökad bandbredd: GDDR5X sänder dubbelt så många databitar (inte instruktioner) per klocka och producerar mer än 10 Gb/s vid topp. Att överföra data i en sådan galen hastighet krävde en helt ny minneslayout på kortet, och den totala minneseffektiviteten ökade med 60-70 % jämfört med föregående generations flaggskepp.

Minska förseningar och stillestånd

Grafikkort har länge varit engagerade inte bara i grafikbearbetning, utan också i relaterade beräkningar. Fysiken är ofta knuten till animationsramar och är anmärkningsvärt parallell, vilket betyder att det är mycket effektivare att beräkna på GPU:n. Men den största generatorn av problem på senare tid har blivit VR-branschen. Många spelmotorer, utvecklingsmetoder och en massa andra tekniker som används för att arbeta med grafik var helt enkelt inte designade för VR, fallet med att flytta kameran eller ändra positionen på användarens huvud under renderingen av ramen behandlades helt enkelt inte. Om du lämnar allt som det är, kommer avsynkroniseringen av videoströmmen och dina rörelser att orsaka anfall av sjösjuka och helt enkelt störa fördjupningen i spelvärlden, vilket innebär att "fel" bildrutor helt enkelt måste slängas efter rendering och starta arbetar igen. Och det här är nya förseningar för att visa bilden på displayen. Det påverkar inte prestationen på ett positivt sätt.

Pascal tog hänsyn till detta problem och introducerade dynamisk lastbalansering och möjligheten till asynkrona avbrott: nu kan exekveringsenheter antingen avbryta den aktuella uppgiften (spara resultatet av arbetet i cachen) för att behandla mer brådskande uppgifter, eller helt enkelt återställa den underritade ramen och starta en ny, vilket avsevärt minskar förseningar i bildbildningen. Den största förmånstagaren här är naturligtvis VR och spel, men den här tekniken kan också hjälpa till med generella beräkningar: simulering av partikelkollisioner fick en prestandaökning på 10-20 %.

Boost 3.0

NVIDIA-grafikkort fick automatisk överklockning för länge sedan, tillbaka i den 700:e generationen baserad på Kepler-arkitekturen. I Maxwell förbättrades överklockningen, men det var ändå, milt uttryckt, så som så: ja, grafikkortet fungerade lite snabbare, så länge termopaketet tillät det, ytterligare 20-30 megahertz för kärnan och 50 -100 för minne, kopplat från fabrik, gav en ökning, men en liten . Det fungerade så här:


Även om det fanns en marginal för GPU-temperaturen ökade inte prestandan. Med Pascals tillkomst skakade ingenjörer upp detta dammiga träsk. Boost 3.0 fungerar på tre fronter: temperaturanalys, klockhastighetsförstärkning och on-chip spänningsförstärkning. Nu pressas alla juicer ur GPU:n: standard NVIDIA-drivrutiner gör inte detta, men leverantörens mjukvara låter dig bygga en profileringskurva med ett klick, som tar hänsyn till kvaliteten på just din grafikkortsinstans.

EVGA var en av de första inom detta område, dess Precision XOC-verktyg har en NVIDIA-certifierad skanner som sekventiellt går igenom hela området av temperaturer, frekvenser och spänningar och uppnår maximal prestanda i alla lägen.

Lägg till här en ny processteknik, höghastighetsminne, alla möjliga optimeringar och en minskning av värmepaketet av chips, så blir resultatet helt enkelt oanständigt. Från 1500 "bas" MHz kan GTX 1060 pressas ut mer än 2000 MHz om ett bra exemplar kommer fram, och leverantören skruvar inte på med kylning.

Förbättra kvaliteten på bilden och uppfattningen av spelvärlden

Prestanda har ökat på alla fronter, men det finns ett antal punkter där det inte har skett några kvalitativa förändringar på flera år: i kvaliteten på den visade bilden. Och det här handlar inte om grafiska effekter, de tillhandahålls av spelutvecklare, utan om exakt vad vi ser på skärmen och hur spelet ser ut för slutanvändaren.

Snabb vertikal synkronisering

Pascals viktigaste funktion är den trippelbufferten för bildutmatning, som samtidigt ger ultralåga fördröjningar i renderingen och säkerställer vertikal synkronisering. Utdatabilden lagras i en buffert, den senast renderade ramen lagras i den andra och den nuvarande ritas i den tredje. Adjö horisontella ränder och rivning, hej hög prestanda. Det finns inga fördröjningar som klassisk V-Sync passar här (eftersom ingen begränsar grafikkortets prestanda och det alltid drar med högsta möjliga bildhastighet), och endast fullformade ramar skickas till monitorn. Jag tror att jag efter det nya året kommer att skriva ett separat stort inlägg om V-Sync, G-Sync, Free-Sync och denna nya snabbsynkalgoritm från Nvidia, det är för många detaljer.

Normala skärmdumpar

Nej, de där skärmdumparna som finns nu är bara synd. Nästan alla spel använder mycket teknik för att göra bilden i rörelse fantastisk och hisnande, och skärmdumpar har blivit en riktig mardröm: istället för en fantastiskt realistisk bild som består av animation, specialeffekter som utnyttjar det mänskliga synets egenheter, ser du några typ kantig jag förstår inte vad med konstiga färger och absolut livlös bild.

Den nya NVIDIA Ansel-tekniken löser problemet med skärmdumpar. Ja, dess implementering kräver integration av speciell kod från spelutvecklare, men det finns ett minimum av riktiga manipulationer, men vinsten är enorm. Ansel vet hur man pausar spelet, överför kontrollen över kameran till dina händer och sedan - utrymme för kreativitet. Du kan bara ta en bild utan GUI och din favoritvinkel.


Du kan rendera en befintlig scen i ultrahög upplösning, ta 360-graders panoramabilder, sy ihop dem i ett plan eller lämna dem i 3D för visning i en VR-hjälm. Ta ett foto med 16 bitar per kanal, spara det som en slags RAW-fil och lek sedan med exponering, vitbalans och andra inställningar så att skärmbilderna blir attraktiva igen. Vi förväntar oss massor av coolt innehåll från spelfans om ett eller två år.

Bearbetning av videoljud

De nya NVIDIA Gameworks-biblioteken lägger till många funktioner tillgängliga för utvecklare. De är främst inriktade på VR och påskynda olika beräkningar, samt att förbättra kvaliteten på bilden, men en av funktionerna är den mest intressanta och värd att nämnas. VRWorks Audio tar arbete med ljud till en helt ny nivå, räknar ljud inte efter banala medelformler beroende på hindrets avstånd och tjocklek, utan utför en komplett ljudsignalspårning, med alla reflektioner från omgivningen, efterklang och ljudabsorption i olika material. NVIDIA har ett bra videoexempel på hur denna teknik fungerar:


Titta bättre med hörlurar

Rent teoretiskt hindrar ingenting att köra en sådan simulering på Maxwell, men optimeringar vad gäller asynkron exekvering av instruktioner och ett nytt avbrottssystem inbyggt i Pascals gör att du kan utföra beräkningar utan att det påverkar bildhastigheten i hög grad.

Pascal totalt

Faktum är att det finns ännu fler förändringar, och många av dem är så djupa i arkitekturen att man skulle kunna skriva en enorm artikel om var och en av dem. Nyckelinnovationerna är den förbättrade designen av själva chipsen, optimering på lägsta nivå vad gäller geometri och asynkron drift med full avbrottshantering, en massa funktioner skräddarsydda för att fungera med hög upplösning och VR, och, naturligtvis, galna frekvenser som tidigare generationer av grafikkort kunde inte drömma om. För två år sedan passerade 780 Ti knappt 1 GHz-tröskeln, idag körs 1080 på två i vissa fall: och här ligger fördelen inte bara i den reducerade tillverkningsprocessen från 28 nm till 16 eller 14 nm: många saker är optimerade vid den lägsta nivån, som börjar med designen av transistorer, slutar med deras topologi och bandning inuti själva chippet.

För varje enskilt fall

Linjen med grafikkort i NVIDIA 10-serien visade sig vara riktigt balanserade och täcker ganska tätt alla spelanvändarfall, från alternativet "att spela strategi och diablo" till "Jag vill ha toppspel i 4k". Speltesterna valdes enligt en enkel teknik: att täcka ett så brett urval av tester som möjligt med minsta möjliga uppsättning tester. BF1 är ett bra exempel på bra optimering och låter dig jämföra prestanda hos DX11 vs DX12 under samma förhållanden. DOOM valdes av samma anledning, bara för att jämföra OpenGL och Vulkan. Den tredje "Witcher" här fungerar som en så-så-optimerad leksak, där de maximala grafikinställningarna gör att alla flaggskepp kan skruvas ihop helt enkelt i kraft av skitkoden. Den använder den klassiska DX11, som är beprövad och perfekt utarbetad i drivrutiner och är bekant för spelutvecklare. Overwatch tar rapen för alla "turnerings"-spel som har väl optimerad kod, faktiskt är det intressant för hur hög den genomsnittliga FPS är i ett spel som inte är särskilt tungt ur grafisk synvinkel, skärpt för att fungera i " genomsnittlig" konfiguration tillgänglig runt om i världen.

Jag kommer genast att ge några allmänna kommentarer: Vulkan är väldigt glupsk när det gäller videominne, för det är denna egenskap en av huvudindikatorerna, och du kommer att se denna tes återspeglas i riktmärken. DX12 på AMD-kort beter sig mycket bättre än på NVIDIA, om de "gröna" visar en genomsnittlig FPS-neddragning på nya API:er, så visar de "röda" tvärtom en ökning.

junioravdelning

GTX 1050

Den yngre NVIDIA (utan bokstäverna Ti) är inte lika intressant som sin laddade syster med bokstäverna Ti. Dess öde är en spellösning för MOBA-spel, strategier, turneringsskjutare och andra spel där detaljer och bildkvalitet är av lite intresse för någon, och en stabil bildhastighet för minimala pengar är vad läkaren beordrade.


I alla bilder finns ingen kärnfrekvens, eftersom den är individuell för varje instans: 1050 utan extra. ström kanske inte jagar, och hennes syster med en 6-stiftskontakt tar lätt den villkorliga 1,9 GHz. När det gäller kraft och längd visas de mest populära alternativen, du kan alltid hitta ett grafikkort med en annan krets eller annan kylning som inte passar in i de angivna "standarderna".

DOOM 2016 (1080p, ULTRA): OpenGL - 68 FPS, Vulkan - 55 FPS;
The Witcher 3: Wild Hunt (1080p, MAX, HairWorks Off): DX11 - 38 FPS;
Battlefield 1 (1080p, ULTRA): DX11 - 49 FPS, DX12 - 40 FPS;
Overwatch (1080p, ULTRA): DX11 - 93 FPS;

GTX 1050 har en GP107 grafikprocessor, ärvd från det äldre kortet med en liten trimning av funktionsblock. 2 GB videominne låter dig inte springa iväg, men för e-sportgrenar och spela någon form av tankar är det perfekt, eftersom priset för ett juniorkort börjar på 9,5 tusen rubel. Ytterligare ström krävs inte, grafikkortet behöver bara 75 watt från moderkortet via PCI-Express-kortplatsen. Sant, i detta prissegment finns det också en AMD Radeon RX460, som med samma 2 GB minne är billigare och nästan inte är sämre i kvalitet, och för ungefär samma pengar kan du få en RX460, men i en 4 GB version. Inte för att de hjälpte honom särskilt mycket, utan någon sorts reserv för framtiden. Valet av en leverantör är inte så viktigt, du kan ta det som är tillgängligt och dra inte ut fickan med extra tusen rubel, vilket är bättre att spendera på de omhuldade bokstäverna Ti.

GTX 1050 Ti

Cirka 10 tusen för den vanliga 1050 är inte dåligt, men för den laddade (eller fulla, kalla det vad du vill) kräver de lite mer (i genomsnitt 1-1,5 tusen mer), men dess fyllning är mycket mer intressant . Hela 1050-serien är förresten inte producerad från att skära/kassera "stora" spån som inte är lämpliga för 1060, utan som en helt oberoende produkt. Den har en mindre tillverkningsprocess (14 nm), en annan växt (kristallerna odlas av Samsung-fabriken), och det finns extremt intressanta exemplar med ytterligare. strömförsörjning: termopaketet och basförbrukningen är fortfarande samma 75 W, men överklockningspotentialen och möjligheten att gå utöver vad som är tillåtet är helt olika.


Om du fortsätter att spela med FullHD-upplösning (1920x1080), inte planerar att uppgradera, och resten av hårdvaran är inom 3-5 år sedan, är det ett bra sätt att öka prestandan i leksaker med liten förlust. Du bör fokusera på ASUS- och MSI-lösningar med en extra 6-stifts strömförsörjning, alternativen från Gigabyte är inte dåliga, men priset är inte så uppmuntrande.

DOOM 2016 (1080p, ULTRA): OpenGL - 83 FPS, Vulkan - 78 FPS;
The Witcher 3: Wild Hunt (1080p, MAX, HairWorks Off): DX11 - 44 FPS;
Battlefield 1 (1080p, ULTRA): DX11 - 58 FPS, DX12 - 50 FPS;
Overwatch (1080p, ULTRA): DX11 - 104 FPS.

Mellersta division

Grafikkort av den 60:e raden har länge ansetts vara det bästa valet för dem som inte vill spendera mycket pengar, och samtidigt spela med höga grafikinställningar i allt som kommer att släppas under de närmaste åren. Det började med GTX 260, som hade två versioner (enklare, 192 strömprocessorer och fetare, 216 "stenar"), fortsatte i 400:e, 500:e och 700:e generationerna, och nu fick NVIDIA återigen en nästan perfekt kombination. kvalitet. Två "mellan" versioner är återigen tillgängliga: GTX 1060 med 3 och 6 GB videominne skiljer sig inte bara i mängden tillgängligt RAM, utan också i prestanda.

GTX 1060 3GB

Drottningen av esport. Rimligt pris, fantastisk prestanda för FullHD (och inom eSport använder de sällan en högre upplösning: resultat är viktigare än vackra saker där), en rimlig mängd minne (3 GB, för en minut, fanns för två år sedan i flaggskeppet GTX 780 Ti, som kostade oanständiga pengar). Prestandamässigt överväldigar den yngre 1060:an lätt förra årets GTX 970 med minnesvärda 3,5 GB minne, och drar lätt förra årets superflaggskepp 780 Ti i öronen.


DOOM 2016 (1080p, ULTRA): OpenGL - 117 FPS, Vulkan - 87 FPS;
The Witcher 3: Wild Hunt (1080p, MAX, HairWorks Off): DX11 - 70 FPS;
Battlefield 1 (1080p, ULTRA): DX11 - 92 FPS, DX12 - 85 FPS;
Overwatch (1080p, ULTRA): DX11 - 93 FPS.

Här är den absoluta favoriten vad gäller pris och avgaser versionen från MSI. Bra frekvenser, tyst kylsystem och sunda mått. För henne begär de ingenting alls, i storleksordningen 15 tusen rubel.

GTX 1060 6GB

6GB-versionen är budgetbiljetten till VR och höga upplösningar. Den kommer inte att svälta efter minne, den är lite snabbare i alla tester och den kommer säkert att överträffa GTX 980 där förra årets grafikkort inte kommer att ha tillräckligt med 4 GB videominne.


DOOM 2016 (1080p, ULTRA): OpenGL - 117 FPS, Vulkan - 121 FPS;
The Witcher 3: Wild Hunt (1080p, MAX, HairWorks Off): DX11 - 73 FPS;
Battlefield 1 (1080p, ULTRA): DX11 - 94 FPS, DX12 - 90 FPS;
Overwatch (1080p, ULTRA): DX11 - 166 FPS.

Jag skulle återigen vilja notera beteendet hos grafikkort när jag använder Vulkan API. 1050 med 2 GB minne - FPS neddragning. 1050 Ti med 4 GB - nästan i nivå. 1060 3 GB - neddragning. 1060 6 GB - tillväxt av resultat. Trenden tror jag är tydlig: Vulkan behöver 4+ GB videominne.

Problemet är att båda 1060:orna inte är små grafikkort. Det verkar som att värmepaketet är rimligt, och kortet där är riktigt litet, men många leverantörer bestämde sig för att helt enkelt förena kylsystemet mellan 1080, 1070 och 1060. Någon har videokort 2 platser höga, men 28+ centimeter långa, gjorde någon dem kortare, men tjockare (2,5 slitsar). Välj noga.

Tyvärr kommer ytterligare 3 GB videominne och en olåst datorenhet att kosta dig ~ 5-6 tusen rubel utöver priset för 3-gig-versionen. I det här fallet har Palit de mest intressanta alternativen för pris och kvalitet. ASUS har släppt monstruösa 28-cm kylsystem, som är skulpterade på 1080, 1070 och 1060, och ett sådant grafikkort passar inte någonstans, versioner utan fabriksöverklockning kostar nästan lika mycket, och avgaserna är mindre, och de ber om mer för relativt kompakt MSI än konkurrenterna på ungefär samma kvalitetsnivå och fabriksöverklockning.

Major League

Att spela för alla pengar 2016 är svårt. Ja, 1080 är vansinnigt cool, men perfektionister och hårdvarukillar vet att NVIDIA Döljer existensen av superflaggskeppet 1080 Ti, vilket borde vara otroligt coolt. De första specifikationerna läcker redan online, och det är tydligt att de gröna väntar på att de rödvita ska kliva in: någon sorts uber-gun som omedelbart kan sättas på plats av den nya kungen av 3D-grafik, den store och mäktiga GTX 1080 Ti. Nåväl, för nu har vi vad vi har.

GTX 1070

Förra årets äventyr med den megapopulära GTX 970 och dess inte helt ärliga-4-gigabyte-minne sorterades aktivt ut och sögs över hela Internet. Detta hindrade henne inte från att bli det mest populära spelgrafikkortet i världen. Inför årsändringen på kalendern har den första platsen i Steam Hardware & Software Survey. Detta är förståeligt: ​​kombinationen av pris och prestanda var helt perfekt. Och om du missade förra årets uppgradering och 1060 inte verkar vara tillräckligt dålig är GTX 1070 ditt val.

Upplösningar på 2560x1440 och 3840x2160 smälter grafikkortet med en smäll. Överklockningssystemet Boost 3.0 kommer att försöka kasta ved när belastningen på GPU:n ökar (det vill säga i de svåraste scenerna, när FPS sjunker under anstormningen av specialeffekter), överklocka grafikkortprocessorn till häpnadsväckande 2100+ MHz. Minnet får lätt 15-18% av den effektiva frekvensen över fabriksvärdena. Monster grej.


Observera, alla tester utförs i 2,5k (2560x1440):

DOOM 2016 (1440p, ULTRA): OpenGL - 91 FPS, Vulkan - 78 FPS;
The Witcher 3: Wild Hunt (1440p, MAX, HairWorks Off): DX11 - 73 FPS;
Battlefield 1 (1440p, ULTRA): DX11 - 91 FPS, DX12 - 83 FPS;
Overwatch (1440p, ULTRA): DX11 - 142 FPS.

Naturligtvis är det omöjligt att dra ut ultrainställningar i 4k och aldrig sjunka under 60 bilder per sekund, varken med detta kort eller 1080, men du kan spela med villkorade "höga" inställningar, stänga av eller något sänka de mest glupska funktionerna helt upplösning, och sett till faktisk prestanda slår grafikkortet lätt även förra årets 980 Ti, som kostade nästan dubbelt så mycket. Gigabyte har det mest intressanta alternativet: de lyckades stoppa in en fullfjädrad 1070 i ett ITX-standardfodral. Tack vare det blygsamma termiska paketet och energieffektiv design. Priserna för kort börjar från 29-30 tusen rubel för läckra alternativ.

GTX 1080

Ja, flaggskeppet har inte bokstäverna Ti. Ja, den använder inte den största GPU som finns tillgänglig från NVIDIA. Ja, det finns inget coolt HBM 2-minne här, och grafikkortet ser inte ut som en Death Star eller, i extrema fall, en Star Destroyer-klass Imperial cruiser. Och ja, det är det coolaste spelgrafikkortet som finns just nu. En efter en tar och kör DOOM med 5k3k upplösning vid 60 fps på ultrainställningar. Alla nya leksaker är föremål för det, och under nästa år eller två kommer det inte att uppleva problem: tills den nya tekniken inbäddad i Pascal blir utbredd, tills spelmotorer lär sig hur man effektivt laddar tillgängliga resurser ... Ja, om ett par år kommer vi att säga: "Här, titta på GTX 1260, för ett par år sedan behövde du ett flaggskepp för att spela på de inställningarna", men för tillfället är det bästa av de bästa grafikkorten tillgängliga innan det nya året till en mycket rimlig pris.


Observera, alla tester utförs i 4k (3840x2160):

DOOM 2016 (2160p, ULTRA): OpenGL - 54 FPS, Vulkan - 78 FPS;
The Witcher 3: Wild Hunt (2160p, MAX, HairWorks Off): DX11 - 55 FPS;
Battlefield 1 (2160p, ULTRA): DX11 - 65 FPS, DX12 - 59 FPS;
Overwatch (2160p, ULTRA): DX11 - 93 FPS.

Det återstår bara att bestämma: du behöver det, eller så kan du spara pengar och ta 1070. Det är inte stor skillnad mellan att spela på "ultra" eller "höga" inställningar, eftersom moderna motorer perfekt ritar en bild i hög upplösning även vid medelhöga inställningar : vi har trots allt att ni inte är såpiga konsoler som inte kan ge tillräckligt med prestanda för ärlig 4k och stabil 60fps.

Om vi ​​kasserar de billigaste alternativen kommer Palit återigen att ha den bästa kombinationen av pris och kvalitet i GameRock-versionen (cirka 43-45 tusen rubel): ja, kylsystemet är "tjockt", 2,5 platser, men grafikkortet är kortare än konkurrenterna, och ett par 1080 installeras sällan . SLI dör långsamt, och inte ens den livgivande insprutningen av höghastighetsbroar hjälper det mycket. ASUS ROG-alternativet är inte dåligt om du har många extrafunktioner installerade. du vill inte täcka extra expansionskortplatser: deras grafikkort är exakt 2 platser tjockt, men det kräver 29 centimeter ledigt utrymme från bakväggen till hårddiskkorgen. Jag undrar om Gigabyte kommer att kunna släppa detta monster i ITX-format?

Resultat

Nya NVIDIA-grafikkort har precis begravt marknaden för begagnad hårdvara. Endast GTX 970 överlever på den, som kan ryckas för 10-12 tusen rubel. Potentiella köpare av begagnade 7970 och R9 280 har ofta ingenstans att lägga den och helt enkelt inte mata den, och många alternativ från andrahandsmarknaden är helt enkelt lovande, och som en billig uppgradering för ett par år framåt är de inte bra: det finns lite minne, ny teknik stöds inte. Det fina med den nya generationens grafikkort är att till och med spel som inte är optimerade för dem körs mycket gladare än på veteran GPU-diagram från tidigare år, och det är svårt att föreställa sig vad som kommer att hända om ett år, när spelmotorerna lär sig att använda hela kraften hos ny teknik.

GTX 1050 och 1050Ti

Tyvärr kan jag inte rekommendera köpet av den billigaste Pascal. RX 460 säljs vanligtvis för tusen eller två mindre, och om din budget är så begränsad att du tar ett grafikkort "för det senaste", så är Radeon objektivt sett en mer intressant investering. Å andra sidan är 1050 lite snabbare, och om priserna i din stad för dessa två grafikkort är nästan desamma, ta det.

1050Ti är i sin tur ett utmärkt alternativ för dem som värdesätter berättelse och gameplay mer än bells and whistles och realistiskt näshår. Den har ingen flaskhals i form av 2 GB videominne, den kommer inte att "gå ner" efter ett år. Du kan lägga pengar på det – gör det. The Witcher på höga inställningar, GTA V, DOOM, BF 1 - inga problem. Ja, du måste ge upp ett antal förbättringar, såsom extra långa skuggor, komplexa tesselleringar eller den "dyra" beräkningen av självskuggande modeller med begränsad strålspårning, men i stridens hetta kommer du att glömma dessa skönheter efter 10 minuters spel, och stabila 50-60 bilder per sekund kommer att ge mycket mer uppslukande effekt än nervhopp från 25 till 40, men med inställningar till "max".

Om du har några Radeon 7850, GTX 760 eller yngre, grafikkort med 2 GB videominne eller mindre, kan du säkert byta.

GTX 1060

Den yngre 1060 kommer att glädja dem för vilka en bildhastighet på 100 FPS är viktigare än grafikklockor och visselpipor. Samtidigt kommer det att tillåta dig att bekvämt spela alla släppta leksaker i FullHD-upplösning med höga eller maximala inställningar och stabila 60 bilder per sekund, och priset skiljer sig mycket från allt som kommer efter det. Den äldre 1060:an med 6 gigabyte minne är en kompromisslös lösning för FullHD med prestandamarginal under ett eller två år, förtrogenhet med VR och en helt acceptabel kandidat för att spela i höga upplösningar vid medelhöga inställningar.

Det är ingen mening att byta din GTX 970 till en GTX 1060, det kommer att ta ytterligare ett år. Men de irriterande 960, 770, 780, R9 280X och äldre enheter kan säkert uppdateras till 1060.

Toppsegment: GTX 1070 och 1080

1070 kommer sannolikt inte att bli lika populär som GTX 970 (likväl har de flesta användare en uppdateringscykel för strykjärn vartannat år), men vad gäller pris och kvalitet är det verkligen en värdig fortsättning på den 70:e raden. Den maler bara spel i vanliga 1080p, hanterar enkelt 2560x1440, klarar prövningen av ooptimerade 21 till 9 och är ganska kapabel att visa 4k, om än inte vid maximala inställningar.


Ja, SLI kan också vara så.

Vi säger hejdå till varje 780 Ti, R9 390X och andra förra årets 980-tal, speciellt om vi vill spela i högupplösning. Och ja, det här är det bästa alternativet för dem som gillar att bygga en jäkla låda i Mini-ITX-format och skrämma gäster med 4k-spel på en 60-70 tums TV som körs på en dator som är lika stor som en kaffebryggare.
gtx 1050 grafikkortshistorik Lägg till taggar

Enligt nyligen släppta anekdotiska bevis kan Pascal GPU-familjen bli en av NVIDIAs mest kompletta serier de senaste åren. På bara några månader har företaget introducerat fyra GPU:er baserade på Pascal och kommer inte att sluta där. Enligt företagets chef presenterades långt ifrån alla Pascal-chips, för att inte tala om riktiga produkter. Tydligen väntar vi inom en snar framtid på nya meddelanden.

NVIDIA Pascal: åtta produkter på fyra månader

Sedan april i år har NVIDIA introducerat fyra Pascal-baserade chips: GP100 med 16 GB HBM2-minne, GP102 med GDDR5X-stöd, GP104 och GP106. Samtidigt tillkännagav företaget åtta produkter baserade på dessa GPU:er (exklusive enskilda produkter av olika typer av specialutgåvor av följande, samt specialiserade enheter som DGX-1): GeForce GTX 1080/1070 (GP104), GeForce GTX 1060 (GP106), TITAN X (GP102 + 12GB GDDR5X), Quadro P5000 (GP104GL + 16GB GDDR5X), Quadro P6000 (GP102GL + 24GB GDDR5X), Tesla P100 SXM och Tesla P100 baserad på GP100 baserad på GDDR5X och Tesla P100 P100 P100.

Medan fyra GPU:er och åtta produkter på fyra månader är en anmärkningsvärd prestation, märks det att företaget inte har introducerat en enda ny lösning för bärbara datorer, och inte heller ett enda nytt grafikkort under $250. Enligt chefen för NVIDIA förbereder företaget nya GPU:er baserade på Pascal, de finns redan i kisel, men de kommer in på marknaden först efter en tid.

NVIDIA: Alla Pascals är klara, men inte alla presenteras

”Vi har designat, verifierat och påbörjat produktion av allaGPU arkitektur baseradPascal», sa Jen-Hsun Huang, vd för NVIDIA, under ett konferenssamtal med investerare och finansanalytiker. "Men vi har ännu inte introducerat alla dessa GPU:er."

Nya konfigurationer

Det är dock inte så mycket internerna i GP107, GP108 och GP102 som är av intresse för spelare och prestandaentusiaster, utan det faktum att varje Pascal-chip kommer att finnas i minst två grundläggande konfigurationer (när det gäller PCIe ID som NVIDIA-drivrutinen använder) ) . Detta öppnar möjligheter för att skapa en mängd nya produkter baserade på GP100, GP102, GP104 och GP106 chips.

Så, GP104 finns i GP104-A och GP104-B-konfigurationerna, såväl som versioner med acceleration aktiverad för professionella applikationer - GP104GL-A och GP104GL-B. Vi vet inte exakt vad bokstäverna "A" och "B" motsvarar, men vi kan anta att "A" betecknar en mikrokrets i maximal konfiguration. Så GP104-A kan matcha GeForce GTX 1080 och GP104-B kan matcha GeForce GTX 1070.

Med tanke på att mikrokretsarna GP102 och GP106 också finns i två konfigurationer (i alla fall indikeras detta av AIDA64-databasen och NVIDIA-drivrutiner), men det finns bara en produkt baserad på dem (GeForce GTX 1060 och TITAN X), kan vi väl förväntar sig uppkomsten av nya lösningar baserade på dem. Huruvida dessa kort kommer att vara snabbare eller långsammare än de befintliga får tiden utvisa. Hur som helst kan GP102 skala både "upp" (upp till 3840 strömprocessorer) och "ned". Samtidigt kan man naturligtvis inte utesluta den hypotetiska möjligheten att den tredje versionen av GP102-C dyker upp, ifall NVIDIA skulle behöva det.

På ett eller annat sätt är det uppenbart att NVIDIA planerar att utöka familjen av grafikkort baserade på Pascal. Även om de omedelbara planerna helt klart borde inkludera mobila och vanliga GPU:er, är det mycket troligt att vi kommer att se nya lösningar för högpresterande speldatorer i framtiden.

ParameterMenande
ChipkodnamnGP104
Produktionsteknik16nm FinFET
Antal transistorer7,2 miljarder
Kärnområde314 mm²
Arkitektur
DirectX hårdvarustöd
Minnesbuss
1607 (1733) MHz
Beräkningsblock20 strömmande multiprocessorer inklusive 2560 IEEE 754-2008 skalära ALU:er med flyttal;
Texturerande block160 texturadresserings- och filtreringsenheter med stöd för FP16- och FP32-komponenter i texturer och stöd för trilinjär och anisotropisk filtrering för alla texturformat
Övervaka support
GeForce GTX 1080 referensgrafikspecifikationer
ParameterMenande
Kärnfrekvens1607 (1733) MHz
2560
Antal texturblock160
Antal blandningsblock64
Effektiv minnesfrekvens10000 (4×2500) MHz
MinnestypGDDR5X
Minnesbuss256-bitars
Minnesstorlek8 GB
320 GB/s
ca 9 teraflops
103 gigapixel/s
257 gigatex/s
DäckPCI Express 3.0
Kontakter
Energiförbrukningupp till 180 W
Extra matEn 8-polig kontakt
2
Rekommenderat pris599-699 $ (USA), 54990 RUB (Ryssland)

Den nya modellen av grafikkortet GeForce GTX 1080 fick ett logiskt namn för den första lösningen i den nya GeForce-serien - den skiljer sig från sin direkta föregångare endast i ett ändrat generationsnummer. Nyheten ersätter inte bara topplösningarna i företagets nuvarande linje, utan blev också flaggskeppet i den nya serien under en tid, tills Titan X släpptes på en ännu kraftfullare GPU. Under den i hierarkin finns också den redan tillkännagivna modellen GeForce GTX 1070, baserad på en avskalad version av GP104-chippet, som vi kommer att överväga nedan.

De föreslagna priserna för Nvidias nya grafikkort är $599 och $699 för vanliga respektive Founders Editions (se nedan), vilket är en ganska bra affär med tanke på att GTX 1080 ligger före inte bara GTX 980 Ti, utan även Titan X. Idag är den nya produkten den bästa lösningen vad gäller prestanda på marknaden för grafikkort med ett chip utan några frågor, och samtidigt är den billigare än de mest kraftfulla grafikkorten från föregående generation. Än så länge har GeForce GTX 1080 i princip ingen konkurrent från AMD, så Nvidia kunde sätta ett pris som passar dem.

Grafikkortet i fråga är baserat på GP104-chippet som har en 256-bitars minnesbuss, men den nya typen av GDDR5X-minne arbetar med en mycket hög effektiv frekvens på 10 GHz, vilket ger en hög toppbandbredd på 320 GB/s - vilket är nästan i nivå med GTX 980 Ti med 384 -bitars buss. Mängden minne installerat på ett grafikkort med en sådan buss kan vara 4 eller 8 GB, men det skulle vara dumt att sätta en mindre mängd för en så kraftfull lösning i moderna förhållanden, så GTX 1080 fick 8 GB minne, och detta belopp räcker för att köra alla 3D-applikationer med alla kvalitetsinställningar under flera år framöver.

GeForce GTX 1080 PCB skiljer sig förstås ganska mycket från företagets tidigare PCB. Värdet på typisk strömförbrukning för nya föremål är 180 watt - något högre än GTX 980, men märkbart lägre än de mindre kraftfulla Titan X och GTX 980 Ti. Referenskortet har den vanliga uppsättningen kontakter för anslutning av bildutgångsenheter: en Dual-Link DVI, en HDMI och tre DisplayPort.

Founders Edition referensdesign

Redan med tillkännagivandet av GeForce GTX 1080 i början av maj tillkännagavs en specialutgåva av grafikkortet kallat Founders Edition, som har ett högre pris än vanliga grafikkort från företagets partners. Faktum är att den här utgåvan är referensdesignen för kortet och kylsystemet, och den är producerad av Nvidia själv. Man kan ha olika attityder till sådana alternativ för grafikkort, men referensdesignen som utvecklats av företagets ingenjörer och tillverkad av högkvalitativa komponenter har sina fläktar.

Men om de kommer att betala flera tusen rubel mer för ett grafikkort från själva Nvidia är en fråga som bara övning kan svara på. I vilket fall som helst, till en början kommer det att vara referensvideokorten från Nvidia som kommer att dyka upp till försäljning till ett ökat pris, och det finns inte mycket att välja på - detta händer med varje tillkännagivande, men referensen GeForce GTX 1080 är annorlunda genom att den är planerad att säljas i denna form under hela dess livstid, fram till lanseringen av nästa generations lösningar.

Nvidia anser att den här utgåvan har sina förtjänster även över de bästa verken av partners. Till exempel gör kylarens design med två kortplatser det enkelt att montera både speldatorer med en relativt liten formfaktor och videosystem med flera chip baserat på detta kraftfulla grafikkort (även trots att tre- och fyrachipsläget inte rekommenderas av företaget). GeForce GTX 1080 Founders Edition har några fördelar i form av en effektiv kylare som använder en evaporativ kammare och en fläkt som trycker ut uppvärmd luft ur höljet - detta är den första sådana lösningen från Nvidia, som förbrukar mindre än 250 watt effekt.

Jämfört med företagets tidigare referensproduktdesigner har strömkretsen uppgraderats från fyrfas till femfas. Nvidia talar också om förbättrade komponenter som den nya produkten är baserad på, elektriskt brus har även reducerats för att förbättra spänningsstabiliteten och överklockningspotentialen. Som ett resultat av alla förbättringar har referenskortets effekteffektivitet ökat med 6 % jämfört med GeForce GTX 980.

Och för att skilja sig från de "vanliga" modellerna av GeForce GTX 1080 och utåt, utvecklades en ovanlig "hackad" fodraldesign för Founders Edition. Vilket dock troligen också ledde till komplikationen av formen på förångningskammaren och kylaren (se bild), vilket kan ha varit en av anledningarna till att man betalade 100 dollar extra för en sådan specialutgåva. Vi upprepar att i början av försäljningen kommer köpare inte att ha så mycket val, men i framtiden kommer det att vara möjligt att välja både en lösning med egen design från en av företagets partners, och utförd av Nvidia själv.

Ny generation av Pascal-grafikarkitektur

Grafikkortet GeForce GTX 1080 är företagets första lösning baserad på GP104-chippet, som tillhör den nya generationen av Nvidias Pascal-grafikarkitektur. Även om den nya arkitekturen är baserad på de lösningar som utarbetats i Maxwell, har den också viktiga funktionella skillnader, vilket vi kommer att skriva om senare. Den största förändringen från en global synvinkel var den nya tekniska processen, enligt vilken den nya grafikprocessorn gjordes.

Användningen av 16 nm FinFET-processteknik vid produktionen av GP104 GPU:er vid fabrikerna av det taiwanesiska företaget TSMC gjorde det möjligt att avsevärt öka chipets komplexitet samtidigt som en relativt låg yta och kostnad bibehölls. Jämför antalet transistorer och området för GP104- och GM204-chipsen - de är nära i området (nyhetens chip är till och med fysiskt mindre), men Pascal-arkitekturchippet har ett betydligt större antal transistorer, och följaktligen , exekveringsenheter, inklusive de som tillhandahåller ny funktionalitet.

Ur en arkitektonisk synvinkel är det första spelet Pascal mycket likt liknande lösningar av Maxwell-arkitekturen, även om det finns vissa skillnader. Precis som Maxwell kommer Pascal-arkitekturprocessorer att ha olika konfigurationer av grafikbearbetningskluster (GPC), strömmande multiprocessorer (SM) och minneskontroller. SM-multiprocessorn är en mycket parallell multiprocessor som schemalägger och kör warps (warps, grupper om 32 instruktionsströmmar) på CUDA-kärnor och andra exekveringsenheter i multiprocessorn. Du kan hitta detaljerad information om designen av alla dessa block i våra recensioner av tidigare Nvidia-lösningar.

Var och en av SM-multiprocessorerna är ihopparad med PolyMorph Engine, som hanterar textursampling, tessellation, transformation, inställning av vertexattribut och perspektivkorrigering. Till skillnad från företagets tidigare lösningar innehåller PolyMorph Engine i GP104-chippet även ett nytt Simultaneous Multi-Projection-block, som vi kommer att diskutera nedan. Kombinationen av SM multiprocessor med en Polymorph Engine kallas traditionellt TPC - Texture Processor Cluster för Nvidia.

Totalt innehåller GP104-chippet i GeForce GTX 1080 fyra GPC-kluster och 20 SM-multiprocessorer, samt åtta minneskontroller kombinerat med 64 ROP:er. Varje GPC-kluster har en dedikerad rasteriseringsmotor och inkluderar fem SM:er. Varje multiprocessor består i sin tur av 128 CUDA-kärnor, 256 KB registerfil, 96 KB delat minne, 48 KB L1-cache och åtta TMU-texturenheter. Det vill säga, totalt innehåller GP104 2560 CUDA-kärnor och 160 TMU-enheter.

Dessutom innehåller grafikprocessorn som GeForce GTX 1080 är baserad på åtta 32-bitars (i motsats till 64-bitars tidigare använda) minneskontroller, vilket ger oss en sista 256-bitars minnesbuss. Åtta ROP:er och 256 KB L2-cache är knutna till var och en av minneskontrollerna. Det vill säga, totalt innehåller GP104-chippet 64 ROPs och 2048 KB L2-cache.

Tack vare arkitektoniska optimeringar och en ny processteknik har den första spel- Pascal blivit den mest energieffektiva grafikprocessorn någonsin. Dessutom finns det ett bidrag till detta både från en av de mest avancerade tekniska processerna 16 nm FinFET, och från arkitekturoptimeringarna som genomfördes i Pascal, jämfört med Maxwell. Nvidia kunde öka klockhastigheten ännu mer än de förväntade sig när de gick över till en ny processteknik. GP104 körs med en högre frekvens än en hypotetisk GM204 gjord med 16nm-processen. För att göra detta var Nvidias ingenjörer tvungna att noggrant kontrollera och optimera alla flaskhalsar i tidigare lösningar som förhindrar överklockning över en viss tröskel. Som ett resultat är den nya GeForce GTX 1080 klockad till över 40 % snabbare än GeForce GTX 980. Men det är inte allt som finns med GPU-klockändringarna.

GPU Boost 3.0-teknik

Som vi väl vet från tidigare Nvidia-grafikkort använder de GPU Boost-hårdvaruteknik i sina GPU:er, designad för att öka driftklockhastigheten för GPU:n i lägen där den ännu inte har nått sin strömförbrukning och termiska gränser. Under åren har denna algoritm genomgått många förändringar, och den tredje generationen av denna teknik används redan i Pascal-arkitekturens videochip - GPU Boost 3.0, vars främsta innovation är en finare inställning av turbofrekvenser, beroende på spänning.

Om du kommer ihåg funktionsprincipen för tidigare versioner av tekniken, så fixades skillnaden mellan basfrekvensen (det garanterade lägsta frekvensvärdet under vilket GPU:n inte faller, åtminstone i spel) och turbofrekvensen. Det vill säga att turbofrekvensen alltid har legat ett visst antal megahertz över basen. GPU Boost 3.0 introducerade möjligheten att ställa in turbofrekvensförskjutningar för varje spänning separat. Det enklaste sättet att förstå detta är med en illustration:

Till vänster är GPU Boost av den andra versionen, till höger - den tredje, som dök upp i Pascal. En fast skillnad mellan bas- och turbofrekvensen tillät inte att avslöja GPU:ns fulla kapacitet, i vissa fall kunde GPU:er från tidigare generationer arbeta snabbare vid den inställda spänningen, men ett fast överskott av turbofrekvensen tillät inte detta. I GPU Boost 3.0 dök denna funktion upp, och turbofrekvensen kan ställas in för vart och ett av de individuella spänningsvärdena, vilket helt pressar ut all juice ur GPU:n.

Det krävs praktiska verktyg för att hantera överklockning och ställa in turbofrekvenskurvan. Nvidia själv gör inte detta, utan hjälper sina partners att skapa sådana verktyg för att underlätta överklockning (inom rimliga gränser förstås). Till exempel har den nya funktionen hos GPU Boost 3.0 redan avslöjats i EVGA Precision XOC, som inkluderar en dedikerad överklockningsskanner som automatiskt hittar och ställer in den icke-linjära skillnaden mellan basfrekvens och turbofrekvens vid olika spänningar genom att köra en inbyggd prestanda och stabilitetstest. Som ett resultat får användaren en turbofrekvenskurva som perfekt matchar kapaciteten hos ett visst chip. Som dessutom kan modifieras som du vill i manuellt läge.

Som du kan se i skärmdumpen av verktyget, förutom information om GPU och systemet, finns det också inställningar för överklockning: Power Target (bestämmer typisk strömförbrukning vid överklockning, i procent av standarden), GPU Temp Target (högsta tillåtna kärntemperatur), GPU Clock Offset (överstiger basfrekvensen för alla spänningsvärden), Memory Offset (överskrider frekvensen för videominnet över standardvärdet), Överspänning (ytterligare möjlighet att öka spänningen).

Precision XOC-verktyget inkluderar tre överklockningslägen: Basic, Linear och Manual. I huvudläget kan du ställa in ett enda överklockningsvärde (fast turbofrekvens) över basen, vilket var fallet för tidigare GPU:er. Linjärt läge låter dig ställa in frekvensrampen från lägsta till maximala spänningsvärden för GPU:n. Tja, i manuellt läge kan du ställa in unika GPU-frekvensvärden för varje spänningspunkt på grafen.

Verktyget innehåller också en speciell skanner för automatisk överklockning. Du kan antingen ställa in dina egna frekvensnivåer eller låta Precision XOC skanna GPU:n vid alla spänningar och hitta de mest stabila frekvenserna för varje punkt på spännings- och frekvenskurvan helt automatiskt. Under skanningsprocessen ökar Precision XOC stegvis frekvensen av GPU:n och kontrollerar dess funktion för stabilitet eller artefakter, vilket skapar en idealisk frekvens- och spänningskurva som kommer att vara unik för varje specifikt chip.

Denna skanner kan anpassas till dina egna krav genom att ställa in tidsintervallet för att testa varje spänningsvärde, den lägsta och högsta frekvensen som ska testas och dess steg. Det är tydligt att för att uppnå stabila resultat skulle det vara bättre att sätta ett litet steg och en anständig testtid. Under testning kan instabil drift av videodrivrutinen och systemet observeras, men om skannern inte fryser kommer den att återställa driften och fortsätta att hitta de optimala frekvenserna.

Ny typ av videominne GDDR5X och förbättrad komprimering

Så kraften hos GPU:n har vuxit avsevärt, och minnesbussen har förblivit endast 256-bitars - kommer minnesbandbredden att begränsa den övergripande prestandan och vad kan göras åt det? Det verkar som att den lovande andra generationens HBM fortfarande är för dyr att tillverka, så andra alternativ fick letas efter. Ända sedan introduktionen av GDDR5-minne 2009 har Nvidias ingenjörer undersökt möjligheterna att använda nya typer av minne. Som ett resultat har utvecklingen kommit till introduktionen av en ny minnesstandard GDDR5X - den mest komplexa och avancerade standarden hittills, vilket ger en överföringshastighet på 10 Gbps.

Nvidia ger ett intressant exempel på hur snabbt detta är. Endast 100 pikosekunder går mellan överförda bitar - under denna tid kommer en ljusstråle att färdas en sträcka på endast en tum (cirka 2,5 cm). Och när man använder GDDR5X-minne måste de datamottagande kretsarna välja värdet på den överförda biten på mindre än hälften av denna tid innan nästa skickas - detta är bara så att du förstår vad modern teknik har kommit fram till.

För att uppnå denna hastighet krävdes utvecklingen av en ny I/O-systemarkitektur som krävde flera års gemensam utveckling med tillverkare av minneschip. Utöver den ökade dataöverföringshastigheten har även energieffektiviteten ökat – GDDR5X-minneschips använder en lägre spänning på 1,35 V och tillverkas med hjälp av ny teknik, vilket ger samma strömförbrukning vid en 43 % högre frekvens.

Företagets ingenjörer var tvungna att omarbeta dataöverföringslinjerna mellan GPU-kärnan och minneschips, och ägna mer uppmärksamhet åt att förhindra signalförlust och signalförsämring hela vägen från minne till GPU och tillbaka. Så, i illustrationen ovan, visas den fångade signalen som ett stort symmetriskt "öga", vilket indikerar bra optimering av hela kretsen och den relativa lättheten att fånga data från signalen. Dessutom har de ovan beskrivna förändringarna inte bara lett till möjligheten att använda GDDR5X vid 10 GHz, utan bör också bidra till att få en hög minnesbandbredd på framtida produkter som använder det mer välbekanta GDDR5-minnet.

Tja, vi fick mer än 40 % ökning i minnesbandbredd från användningen av det nya minnet. Men räcker inte det? För att ytterligare öka effektiviteten i minnesbandbredden fortsatte Nvidia att förbättra den avancerade datakomprimeringen som introducerades i tidigare arkitekturer. Minnesdelsystemet i GeForce GTX 1080 använder förbättrade och flera nya förlustfria datakomprimeringstekniker utformade för att minska bandbreddskraven - redan den fjärde generationen av on-chip-komprimering.

Algoritmer för datakomprimering i minnet ger flera positiva aspekter samtidigt. Komprimering minskar mängden data som skrivs till minnet, detsamma gäller för data som överförs från videominne till L2-cache, vilket förbättrar effektiviteten i att använda L2-cachen, eftersom en komprimerad bricka (ett block med flera bildbuffertpixlar) har en mindre storlek än en okomprimerad. Det minskar också mängden data som skickas mellan olika punkter, som TMU-texturmodulen och framebuffern.

Datakomprimeringspipelinen i GPU:n använder flera algoritmer, som bestäms beroende på datas "komprimerbarhet" - den bästa tillgängliga algoritmen väljs för dem. En av de viktigaste är deltafärgkompressionsalgoritmen. Denna komprimeringsmetod kodar data som skillnaden mellan på varandra följande värden istället för själva data. GPU:n beräknar skillnaden i färgvärden mellan pixlarna i ett block (bricka) och lagrar blocket som en viss medelfärg för hela blocket plus data om skillnaden i värden för varje pixel. För grafisk data är denna metod vanligtvis väl lämpad, eftersom färgen inom små brickor för alla pixlar ofta inte skiljer sig för mycket.

GP104 GPU i GeForce GTX 1080 stöder fler komprimeringsalgoritmer än tidigare Maxwell-chips. Således har 2:1-komprimeringsalgoritmen blivit mer effektiv, och utöver den har två nya algoritmer dykt upp: ett 4:1-komprimeringsläge, lämpligt för fall där skillnaden i färgvärdet på pixlarna i ett block är mycket liten, och ett 8:1-läge, som kombinerar en konstant 4:1-komprimering av 2×2 pixelblock med 2x delta-komprimering mellan block. När komprimering inte alls är möjlig används den inte.

Men i verkligheten händer det senare mycket sällan. Detta kan ses från exemplet på skärmdumparna från spelet Project CARS, som Nvidia citerade för att illustrera det ökade kompressionsförhållandet i Pascal. I illustrationerna var de rambuffertbrickor som GPU kunde komprimera skuggade i magenta, och de som inte kunde komprimeras utan förlust förblev med den ursprungliga färgen (överst - Maxwell, botten - Pascal).

Som du kan se fungerar de nya komprimeringsalgoritmerna i GP104 verkligen mycket bättre än i Maxwell. Även om den gamla arkitekturen också kunde komprimera de flesta brickorna i scenen, är mycket gräs och träd runt kanterna, såväl som bildelar, inte föremål för äldre komprimeringsalgoritmer. Men med införandet av nya tekniker i Pascal förblev ett mycket litet antal bildområden okomprimerade - förbättrad effektivitet är uppenbar.

Som ett resultat av förbättringar av datakomprimering kan GeForce GTX 1080 avsevärt minska mängden data som skickas per bildruta. I antal sparar förbättrad komprimering ytterligare 20 % av den effektiva minnesbandbredden. Utöver den mer än 40 % ökningen av minnesbandbredden för GeForce GTX 1080 jämfört med GTX 980 från att använda GDDR5X-minne, ger detta sammantaget cirka 70 % ökning av effektiv minnesbandbredd jämfört med föregående generationsmodell.

Stöd för Async Compute

De flesta moderna spel använder komplexa beräkningar förutom grafik. Till exempel kan beräkningar vid beräkning av fysiska kroppars beteende utföras inte före eller efter grafiska beräkningar, utan samtidigt med dem, eftersom de inte är relaterade till varandra och inte är beroende av varandra inom samma ram. Ett annat exempel är efterbehandling av redan renderade ramar och bearbetning av ljuddata, som också kan utföras parallellt med rendering.

Ett annat tydligt exempel på användningen av funktionalitet är Asynchronous Time Warp-tekniken som används i VR-system för att ändra utdataramen enligt rörelsen av spelarens huvud precis innan den matas ut, vilket avbryter renderingen av nästa. Sådan asynkron laddning av GPU-kapacitet gör det möjligt att öka effektiviteten i att använda dess exekveringsenheter.

Dessa arbetsbelastningar skapar två nya GPU-användningsscenarier. Den första av dessa inkluderar överlappande belastningar, eftersom många typer av uppgifter inte fullt ut använder kapaciteten hos GPU:er, och vissa resurser är inaktiva. I sådana fall kan du helt enkelt köra två olika uppgifter på samma GPU, separera dess exekveringsenheter för att få effektivare användning - till exempel PhysX-effekter som körs i samband med 3D-renderingen av ramen.

För att förbättra prestandan för detta scenario introducerade Pascal-arkitekturen dynamisk lastbalansering. I den tidigare Maxwell-arkitekturen implementerades överlappande arbetsbelastningar som en statisk fördelning av GPU-resurser mellan grafik och dator. Detta tillvägagångssätt är effektivt förutsatt att balansen mellan de två arbetsbelastningarna ungefär motsvarar resursfördelningen och att uppgifterna löper lika i tid. Om icke-grafiska beräkningar tar längre tid än grafiska, och båda väntar på slutförandet av det gemensamma arbetet, kommer en del av GPU:n att vara inaktiv under den återstående tiden, vilket kommer att orsaka en minskning av den totala prestandan och omintetgöra alla fördelar. Dynamisk lastbalansering av hårdvara, å andra sidan, låter dig använda de frigjorda GPU-resurserna så snart de blir tillgängliga - för förståelse kommer vi att ge en illustration.

Det finns också uppgifter som är tidskritiska, och detta är det andra scenariot för asynkron beräkning. Till exempel måste exekveringen av den asynkrona tidsdistorsionsalgoritmen i VR slutföras innan avsökningen annars kommer ramen att kasseras. I ett sådant fall måste GPU:n stödja mycket snabba uppgiftsavbrott och byte till en annan uppgift för att ta en mindre kritisk uppgift från exekvering på GPU:n, vilket frigör dess resurser för kritiska uppgifter - detta kallas preemption.

Ett enda renderingskommando från en spelmotor kan innehålla hundratals draw calls, varje draw call innehåller i sin tur hundratals renderade trianglar, var och en innehåller hundratals pixlar som ska beräknas och ritas. Den traditionella GPU-metoden använder endast avbrott i högnivåuppgifter, och grafikpipelinen måste vänta på att allt det arbetet är slutfört innan du byter uppgifter, vilket resulterar i mycket hög latens.

För att fixa detta introducerade Pascal-arkitekturen först möjligheten att avbryta en uppgift på pixelnivå - Pixel Level Preemption. Pascal GPU-exekveringsenheter kan ständigt övervaka framstegen för renderingsuppgifter, och när ett avbrott begärs kan de stoppa exekveringen och spara sammanhanget för senare slutförande genom att snabbt byta till en annan uppgift.

Trådnivåavbrott och växling för beräkningsoperationer fungerar på samma sätt som avbrott på pixelnivå för grafisk beräkning. Beräkningsarbetsbelastningar består av flera rutnät som vart och ett innehåller flera trådar. När en avbrottsbegäran tas emot avslutar de trådar som körs på multiprocessorn sin exekvering. Andra block sparar sitt eget tillstånd för att fortsätta från samma punkt i framtiden, och GPU:n växlar till en annan uppgift. Hela uppgiftsväxlingsprocessen tar mindre än 100 mikrosekunder efter att de löpande trådarna avslutas.

För spelarbetsbelastningar ger kombinationen av pixelnivåavbrott för grafik och trådnivåavbrott för beräkningsuppgifter Pascal-arkitektur GPU:er möjligheten att snabbt växla mellan uppgifter med minimal tidsförlust. Och för beräkningsuppgifter på CUDA är det också möjligt att avbryta med minimal granularitet - på instruktionsnivån. I det här läget stoppar alla trådar exekveringen på en gång och byter omedelbart till en annan uppgift. Detta tillvägagångssätt kräver att man sparar mer information om tillståndet för alla register i varje tråd, men i vissa fall av icke-grafiska beräkningar är det ganska motiverat.

Användningen av snabba avbrott och uppgiftsväxling i grafiska och beräkningsuppgifter lades till Pascal-arkitekturen så att grafiska och icke-grafiska uppgifter kunde avbrytas på nivån för individuella instruktioner, snarare än hela trådar, som var fallet med Maxwell och Kepler . Dessa tekniker kan förbättra det asynkrona exekverandet av olika GPU-arbetsbelastningar och förbättra lyhördheten när du kör flera uppgifter samtidigt. På Nvidia-evenemanget visade de en demonstration av arbetet med asynkrona beräkningar med exemplet att beräkna fysiska effekter. Om prestandan utan asynkrona beräkningar var på nivån 77-79 FPS, ökade bildhastigheten till 93-94 FPS med inkluderingen av dessa funktioner.

Vi har redan gett ett exempel på en av möjligheterna att använda denna funktionalitet i spel i form av asynkron tidsförvrängning i VR. Illustrationen visar driften av denna teknik med traditionellt avbrott (preemption) och snabbt. I det första fallet försöker man utföra processen med asynkron tidsförvrängning så sent som möjligt, men innan man börjar uppdatera bilden på skärmen. Men algoritmens arbete måste ges till exekveringen i GPU några millisekunder tidigare, eftersom utan ett snabbt avbrott finns det inget sätt att exakt utföra arbetet vid rätt tidpunkt, och GPU:n är inaktiv under en tid.

I fallet med exakta avbrott på pixel- och trådnivå (visas till höger), ger denna förmåga större noggrannhet vid bestämning av avbrottsögonblicket, och asynkron tidsförvrängning kan startas mycket senare med förtroende för slutförandet av arbetet innan uppdatering av informationen på displayen börjar. Och inaktiv en tid i det första fallet kan GPU:n laddas med lite extra grafiskt arbete.

Samtidig multiprojektionsteknik

Den nya GP104 GPU lägger till stöd för en ny Simultaneous Multi-Projection (SMP)-teknik som gör att GPU:n kan rendera data mer effektivt på moderna skärmsystem. SMP tillåter videochippet att samtidigt visa data i flera projektioner, vilket krävde introduktionen av ett nytt hårdvarublock i GPU:n som en del av PolyMorph-motorn i slutet av den geometriska pipelinen före rasteriseringsblocket. Detta block är ansvarigt för att arbeta med flera projektioner för en enda geometriström.

Multiprojektionsmotorn bearbetar geometriska data samtidigt för 16 förkonfigurerade projektioner som kombinerar projektionspunkten (kameror), dessa projektioner kan roteras eller lutas oberoende av varandra. Eftersom varje primitiv geometri kan visas samtidigt i flera projektioner, tillhandahåller SMP-motorn denna funktionalitet, vilket gör att applikationen kan instruera videochippet att replikera geometrin upp till 32 gånger (16 projektioner vid två projektionscentra) utan ytterligare bearbetning.

Hela bearbetningsprocessen är hårdvaruaccelererad, och eftersom multiprojektion fungerar efter geometrimotorn, behöver den inte upprepa alla stadier av geometribearbetning flera gånger. De sparade resurserna är viktiga när renderingshastigheten begränsas av geometribearbetningsprestanda, som tessellation, när samma geometriska arbete utförs flera gånger för varje projektion. Följaktligen, i toppfallet, kan multiprojektion minska behovet av geometribearbetning med upp till 32 gånger.

Men varför är allt detta nödvändigt? Det finns flera bra exempel där multiprojektionsteknik kan vara användbar. Till exempel ett multimonitorsystem med tre bildskärmar monterade i en vinkel mot varandra tillräckligt nära användaren (surroundkonfiguration). I en typisk situation återges scenen i en projektion, vilket leder till geometriska förvrängningar och felaktig geometriåtergivning. Det korrekta sättet är tre olika projektioner för var och en av monitorerna, beroende på vinkeln de är placerade i.

Med ett grafikkort på ett chip med Pascal-arkitektur kan detta göras i ett geometripass, som specificerar tre olika projektioner, var och en för en annan bildskärm. Och användaren kommer alltså att kunna ändra vinkeln i vilken monitorerna är placerade mot varandra, inte bara fysiskt utan också virtuellt - genom att rotera projektionerna för sidomonitorerna för att få rätt perspektiv i 3D-scenen med en märkbart bredare betraktningsvinkel (FOV). Det finns sant att det finns en begränsning här - för sådant stöd måste applikationen kunna rendera scenen med en bred FOV och använda speciella SMP API-anrop för att ställa in den. Det vill säga, du kan inte göra detta i varje spel, du behöver särskilt stöd.

Hur som helst är dagarna för en enda projektion på en enda platt bildskärm över, det finns nu många flerbildskärmskonfigurationer och böjda skärmar som också kan använda denna teknik. För att inte tala om virtual reality-system som använder speciella linser mellan skärmarna och användarens ögon, vilket kräver nya tekniker för att projicera en 3D-bild till en 2D-bild. Många av dessa teknologier och tekniker är fortfarande i tidig utveckling, huvudsaken är att äldre GPU:er inte effektivt kan använda mer än en plan projektion. De kräver flera renderingspass, flera bearbetningar av samma geometri och så vidare.

Maxwell-chips hade begränsat stöd för flera upplösningar för att öka effektiviteten, men Pascals SMP kan göra mycket mer. Maxwell kunde rotera projektionen med 90 grader för kubkartering eller olika projektionsupplösningar, men detta var bara användbart i ett begränsat antal applikationer som VXGI.

Andra möjligheter att använda SMP inkluderar rendering med olika upplösningar och single-pass stereo rendering. Till exempel kan rendering med olika upplösningar (Multi-Res Shading) användas i spel för att optimera prestandan. När den tillämpas används en högre upplösning i mitten av ramen, och i periferin reduceras den för att få en snabbare renderingshastighet.

Single-pass stereo-rendering används i VR, den har redan lagts till i VRWorks-paketet och använder multiprojektionsfunktionen för att minska mängden geometriskt arbete som krävs i VR-rendering. Om den här funktionen används bearbetar GeForce GTX 1080 GPU scengeometrin endast en gång, vilket genererar två projektioner för varje öga samtidigt, vilket minskar den geometriska belastningen på GPU:n med hälften, och även minskar förlusterna från drivrutinen och operativsystemet.

En ännu mer avancerad teknik för att förbättra effektiviteten av VR-rendering är Lens Matched Shading, som använder flera projektioner för att simulera de geometriska distorsionerna som krävs i VR-rendering. Den här metoden använder multiprojektion för att återge en 3D-scen på en yta som närmar sig den linsjusterade ytan när den renderas för VR-headsetutmatning, vilket undviker många extra pixlar i periferin som skulle kasseras. Det enklaste sättet att förstå essensen av metoden är genom illustration - fyra lätt expanderade projektioner används framför varje öga (i Pascal kan du använda 16 projektioner för varje öga - för att mer exakt simulera en krökt lins) istället för en:

Detta tillvägagångssätt kan spara mycket prestanda. Till exempel är en typisk Oculus Rift-bild per öga 1,1 megapixel. Men på grund av skillnaden i projektioner, för att återge den, är originalbilden 2,1 megapixlar - 86% mer än nödvändigt! Användningen av multiprojektion, implementerad i Pascal-arkitekturen, gör det möjligt att minska upplösningen på den renderade bilden till 1,4 megapixlar, erhålla en 1,5-faldig besparing i pixelbehandlingshastighet och sparar även minnesbandbredd.

Och tillsammans med en dubbel besparing av bearbetningshastigheten för geometri tack vare stereorendering med enkelpassage, kan GeForce GTX 1080-grafikprocessorn ge en betydande ökning av VR-renderingsprestanda, vilket är mycket krävande på geometris bearbetningshastighet, och ännu mer så vidare pixelbearbetning.

Förbättringar av videoutgång och bearbetningsblock

Förutom prestanda och ny funktionalitet relaterad till 3D-rendering är det nödvändigt att upprätthålla en bra nivå av bildutdata, samt videoavkodning och -kodning. Och den första grafikprocessorn i Pascal-arkitekturen gjorde ingen besviken - den stöder alla moderna standarder i denna mening, inklusive hårdvaruavkodning av HEVC-formatet, vilket är nödvändigt för att titta på 4K-videor på en PC. Även framtida ägare av GeForce GTX 1080-grafikkort kommer snart att kunna njuta av streaming av 4K-video från Netflix och andra leverantörer på sina system.

När det gäller bildskärmsutgång har GeForce GTX 1080 stöd för HDMI 2.0b med HDCP 2.2 samt DisplayPort. Hittills har DP 1.2-versionen certifierats, men GPU:n är klar för certifiering för nyare versioner av standarden: DP 1.3 Ready och DP 1.4 Ready. Det senare gör att 4K-skärmar kan visas vid 120Hz och 5K och 8K-skärmar vid 60Hz med ett par DisplayPort 1.3-kablar. Om den maximala stödda upplösningen för GTX 980 var 5120x3200 vid 60Hz, så har den för den nya GTX 1080-modellen vuxit till 7680x4320 vid samma 60Hz. Referensen GeForce GTX 1080 har tre DisplayPort-utgångar, en HDMI 2.0b och en digital Dual-Link DVI.

Den nya Nvidia grafikkortsmodellen fick också ett förbättrat block för avkodning och kodning av videodata. Således uppfyller GP104-chippet de höga standarderna för PlayReady 3.0 (SL3000) för strömmande videouppspelning, vilket gör att du kan vara säker på att uppspelning av högkvalitativt innehåll från välkända leverantörer som Netflix kommer att vara av högsta kvalitet och energieffektivt . Detaljer om stöd för olika videoformat under kodning och avkodning ges i tabellen, den nya produkten är klart bättre än tidigare lösningar:

Men en ännu mer intressant nyhet är stödet för de så kallade High Dynamic Range (HDR)-skärmarna, som är på väg att bli utbredda på marknaden. TV-apparater finns till försäljning redan 2016 (med fyra miljoner HDR-TV-apparater som förväntas säljas på bara ett år), och bildskärmar nästa år. HDR är det största genombrottet inom bildskärmsteknik på flera år, och levererar dubbla färgtoner (75 % synligt spektrum mot 33 % för RGB), ljusare skärmar (1 000 nits) med högre kontrastförhållande (10 000:1) och fylliga färger.

Framväxten av möjligheten att spela innehåll med en större skillnad i ljusstyrka och rikare och mer mättade färger kommer att föra bilden på skärmen närmare verkligheten, den svarta färgen blir djupare, det starka ljuset kommer att blända, precis som i den verkliga världen . Följaktligen kommer användare att se mer detaljer i ljusa och mörka områden av bilder jämfört med vanliga monitorer och TV-apparater.

För att stödja HDR-skärmar har GeForce GTX 1080 allt du behöver - 12-bitars färgutgång, stöd för BT.2020- och SMPTE 2084-standarder och HDMI 2.0b 10/12-bitars 4K HDR-upplösning, vilket var fallet med Maxwell. Dessutom har Pascal lagt till stöd för avkodning av HEVC-formatet i 4K-upplösning vid 60 Hz och 10- eller 12-bitars färg, som används för HDR-video, samt kodning av samma format med samma parametrar, men endast i 10 -bit för HDR-videoinspelning eller streaming. Dessutom är nyheten redo för DisplayPort 1.4-standardisering för HDR-dataöverföring via denna kontakt.

Förresten, HDR-videokodning kan behövas i framtiden för att överföra sådan data från en hemdator till en SHIELD-spelkonsol som kan spela 10-bitars HEVC. Det vill säga att användaren kommer att kunna sända spelet från en PC i HDR-format. Vänta, var kan jag få spel med sådan support? Nvidia arbetar ständigt med spelutvecklare för att implementera detta stöd, vilket ger dem allt de behöver (drivrutinsstöd, kodexempel, etc.) för att korrekt rendera HDR-bilder som är kompatibla med befintliga skärmar.

Vid tidpunkten för releasen av grafikkortet, GeForce GTX 1080, har spel som Obduction, The Witness, Lawbreakers, Rise of the Tomb Raider, Paragon, The Talos Principle och Shadow Warrior 2 stöd för HDR-utgång. Men den här listan är förväntas fyllas på inom en snar framtid.

Ändringar av multi-chip SLI-rendering

Det gjordes också några förändringar relaterade till den egenutvecklade SLI multi-chip renderingsteknologin, även om ingen förväntade sig detta. SLI används av PC-spelentusiaster för att höja prestandan antingen till det extrema genom att köra de mest kraftfulla grafikkorten med ett chip samtidigt, eller för att få mycket höga bildhastigheter genom att begränsa sig till ett par mellanklasslösningar som ibland är billigare än en top-end (kontroversiellt beslut, men de gör det). Med 4K-skärmar har spelare nästan inga andra alternativ än att installera ett par grafikkort, eftersom även toppmodeller ofta inte kan ge ett bekvämt spel vid maximala inställningar under sådana förhållanden.

En av de viktiga komponenterna i Nvidia SLI är broar som ansluter grafikkort till ett gemensamt videodelsystem och tjänar till att organisera en digital kanal för dataöverföring mellan dem. GeForce-grafikkort har traditionellt sett dubbla SLI-kontakter, som tjänade till att ansluta mellan två eller fyra grafikkort i 3-vägs och 4-vägs SLI-konfigurationer. Vart och ett av grafikkorten var tvungna att anslutas till var och en, eftersom alla GPU:er skickade ramarna de renderade till huvud-GPU:n, varför två gränssnitt behövdes på vart och ett av korten.

Från och med GeForce GTX 1080 har alla Nvidia-grafikkort baserade på Pascal-arkitekturen två SLI-gränssnitt sammanlänkade för att öka prestandan för dataöverföring mellan grafikkort, och detta nya dubbelkanaliga SLI-läge förbättrar prestanda och komfort vid visning av visuell information på mycket högupplösta skärmar eller system med flera bildskärmar.

För detta läge behövdes också nya broar, kallade SLI HB. De kombinerar ett par GeForce GTX 1080 grafikkort via två SLI-kanaler samtidigt, även om de nya grafikkorten även är kompatibla med äldre bryggor. För upplösningar på 1920×1080 och 2560×1440 pixlar vid en uppdateringshastighet på 60 Hz kan standardbryggor användas, men i mer krävande lägen (4K, 5K och multimonitorsystem) kommer bara nya bryggor att ge bättre resultat i termer av av smidigt rambyte, även om de gamla kommer att fungera, men något sämre.

Dessutom, när du använder SLI HB-bryggor, körs GeForce GTX 1080-datagränssnittet på 650 MHz, jämfört med 400 MHz för konventionella SLI-bryggor på äldre GPU:er. Dessutom, för några av de tuffa gamla bryggorna, är en högre dataöverföringshastighet också tillgänglig med videochips av Pascal-arkitekturen. Med en ökning av dataöverföringshastigheten mellan GPU:n via ett fördubblat SLI-gränssnitt med en ökad driftfrekvens, tillhandahålls också en jämnare visning av ramar på skärmen, jämfört med tidigare lösningar:

Det bör också noteras att stödet för multi-chip-rendering i DirectX 12 skiljer sig något från vad som var brukligt tidigare. I den senaste versionen av grafik-API:et har Microsoft gjort många ändringar relaterade till driften av sådana videosystem. För mjukvaruutvecklare erbjuder DX12 två alternativ för användning av flera GPU:er: Multi Display Adapter (MDA) och Linked Display Adapter (LDA) lägen.

Dessutom har LDA-läget två former: Implicit LDA (som Nvidia använder för SLI) och Explicit LDA (när spelutvecklaren tar på sig uppgiften att hantera multi-chip-rendering. MDA- och Explicit LDA-lägena implementerades precis i DirectX 12 i för att ge spelutvecklare mer frihet och möjligheter när de använder videosystem med flera chip. Skillnaden mellan lägena är tydligt synlig i följande tabell:

I LDA-läge kan minnet för varje GPU kopplas till minnet hos en annan och visas som en stor total volym, naturligtvis, med alla prestandabegränsningar när data hämtas från "främmande" minne. I MDA-läge fungerar varje GPU:s minne separat, och olika GPU:er kan inte direkt komma åt data från en annan GPU:s minne. LDA-läget är designat för system med flera chip med liknande prestanda, medan MDA-läget är mindre restriktivt och kan fungera tillsammans med diskreta och integrerade GPU:er eller diskreta lösningar med chips från olika tillverkare. Men det här läget kräver också mer uppmärksamhet och arbete från utvecklare vid programmering av samarbete så att GPU:er kan kommunicera med varandra.

Som standard stöder det GeForce GTX 1080-baserade SLI-systemet endast två GPU:er, och tre- och fyra-GPU-konfigurationer är officiellt utfasade, eftersom moderna spel blir allt svårare att uppnå prestandavinster genom att lägga till en tredje och fjärde GPU. Till exempel förlitar sig många spel på funktionerna hos systemets centrala processor när de använder videosystem med flera chip, och nya spel använder i allt högre grad tidsmässiga (temporala) tekniker som använder data från tidigare bildrutor, där den effektiva driften av flera GPU:er samtidigt är helt enkelt omöjligt.

Driften av system i andra (icke-SLI) multi-chip-system är dock fortfarande möjlig, såsom MDA eller LDA Explicit-lägen i DirectX 12 eller ett två-chip SLI-system med en dedikerad tredje GPU för PhysX fysiska effekter. Men hur är det med rekorden i benchmarks, överger verkligen Nvidia dem helt och hållet? Nej, naturligtvis, men eftersom sådana system efterfrågas i världen av nästan ett fåtal användare, uppfanns en speciell Enthusiast Key för sådana ultraentusiaster, som kan laddas ner från Nvidias webbplats och låsa upp den här funktionen. För att göra detta måste du först skaffa ett unikt GPU-ID genom att köra en speciell applikation, begära sedan entusiastnyckeln på webbplatsen och, efter att ha laddat ner den, installera nyckeln i systemet och därigenom låsa upp 3-vägs och 4-vägs SLI-konfigurationer.

Snabbsynkroniseringsteknik

Vissa förändringar har skett i synkroniseringstekniker vid visning av information på displayen. Framöver finns det inget nytt i G-Sync, och Adaptive Sync-tekniken stöds inte heller. Men Nvidia bestämde sig för att förbättra utmatningens jämnhet och synkronisering för spel som visar mycket hög prestanda när bildfrekvensen avsevärt överstiger bildskärmens uppdateringsfrekvens. Detta är särskilt viktigt för spel som kräver minimal latens och snabb respons, och som är multiplayer-strider och tävlingar.

Fast Sync är ett nytt alternativ till vertikal synkronisering som inte har visuella artefakter i form av bildrivning i bilden och inte är bunden till en fast uppdateringsfrekvens, vilket ökar förseningarna. Vad är problemet med vertikal synkronisering i spel som Counter-Strike: Global Offensive? Detta spel på kraftfulla moderna GPU:er körs med flera hundra bilder per sekund, och spelaren har ett val om att aktivera v-sync eller inte.

I multiplayer-spel jagar användarna oftast efter minimala förseningar och inaktiverar VSync, och får tydligt synliga rivningar i bilden, vilket är extremt obehagligt även vid höga bildhastigheter. Om du aktiverar v-sync kommer spelaren att uppleva en betydande ökning av förseningar mellan hans handlingar och bilden på skärmen, när grafikpipelinen saktar ner till monitorns uppdateringsfrekvens.

Så fungerar en traditionell pipeline. Men Nvidia bestämde sig för att separera processen att rendera och visa bilden på skärmen med hjälp av Fast Sync-teknik. Detta gör att den del av grafikprocessorn som renderar ramar i full hastighet kan fortsätta att arbeta med maximal effektivitet genom att lagra dessa ramar i en speciell temporär Last Rendered Buffer.

Den här metoden låter dig ändra visningsmetoden och ta det bästa från lägena VSync On och VSync Off, få låg latens, men utan bildartefakter. Med Fast Sync finns det ingen ramflödeskontroll, spelmotorn körs i sync-off-läge och uppmanas inte att vänta med att rita en till, så latenserna är nästan lika låga som VSync Off-läge. Men eftersom Fast Sync självständigt väljer en buffert för visning på skärmen och visar hela bilden, finns det heller inga bildavbrott.

Fast Sync använder tre olika buffertar, varav de två första fungerar på samma sätt som dubbelbuffring i en klassisk pipeline. Primär buffert (Front Buffer - FB) är en buffert, från vilken information visas på displayen, en helt återgiven ram. Backbufferten (Back Buffer - BB) är bufferten som tar emot information vid rendering.

När du använder vertikal synkronisering under förhållanden med hög bildhastighet, väntar spelet tills uppdateringsintervallet nås för att byta ut den primära bufferten med den sekundära bufferten för att visa bilden av en enskild bildruta på skärmen. Detta saktar ner saker och ting, och att lägga till fler buffertar som traditionell trippelbuffring kommer bara att öka fördröjningen.

Med Fast Sync läggs en tredje Last Rendered Buffer (LRB) till, som används för att lagra alla ramar som just har renderats i den sekundära bufferten. Namnet på bufferten talar för sig självt, den innehåller en kopia av den senaste fullständigt renderade ramen. Och när det är dags att uppdatera den primära bufferten, kopieras denna LRB-buffert till den primära i sin helhet, och inte i delar, från den sekundära med inaktiverad vertikal synkronisering. Eftersom kopiering av information från buffertar är ineffektivt byts de helt enkelt ut (eller byter namn, eftersom det blir mer bekvämt att förstå), och den nya logiken för att byta buffertar, introducerad i GP104, hanterar denna process.

I praktiken ger införandet av en ny synkroniseringsmetod Fast Sync fortfarande en något större fördröjning jämfört med helt inaktiverad vertikal synkronisering - i genomsnitt 8 ms mer, men den visar ramar på skärmen i sin helhet, utan obehagliga artefakter på skärmen som riva bilden. Den nya metoden kan aktiveras från Nvidia-kontrollpanelens grafikinställningar i den vertikala. Standardvärdet förblir dock applikationskontroll, och att aktivera Fast Sync i alla 3D-applikationer krävs helt enkelt inte, det är bättre att välja den här metoden specifikt för spel med hög FPS.

Virtual reality-teknik Nvidia VRWorks

Vi har berört det heta ämnet VR mer än en gång i den här artikeln, men det har mest handlat om att öka bildhastigheter och säkerställa låg latens, vilket är väldigt viktigt för VR. Allt detta är väldigt viktigt och det finns verkligen framsteg, men än så länge ser VR-spel inte alls lika imponerande ut som de bästa av de "vanliga" moderna 3D-spelen. Detta händer inte bara för att de ledande spelutvecklarna ännu inte är särskilt involverade i VR-applikationer, utan också för att VR ställer högre krav på bildhastigheten, vilket förhindrar användningen av många av de vanliga teknikerna i sådana spel på grund av de höga kraven.

För att minska skillnaden i kvalitet mellan VR-spel och vanliga spel, beslutade Nvidia att släppa ett helt paket med relaterade VRWorks-teknologier, som inkluderade ett stort antal API:er, bibliotek, motorer och teknologier som avsevärt kan förbättra både kvaliteten och prestandan hos VR-applikationer. Hur hänger detta ihop med tillkännagivandet av den första spellösningen i Pascal? Det är väldigt enkelt - vissa tekniker har introducerats i det som hjälper till att öka produktiviteten och förbättra kvaliteten, och vi har redan skrivit om dem.

Och även om det inte bara handlar om grafik, kommer vi först att prata lite om det. Uppsättningen av VRWorks Graphics-teknologier inkluderar de tidigare nämnda teknologierna, såsom Lens Matched Shading, med hjälp av multiprojektionsfunktionen som dök upp i GeForce GTX 1080. Den nya produkten låter dig få en prestandaökning på 1,5-2 gånger i förhållande till lösningar som inte har sådant stöd. Vi nämnde också andra teknologier, som MultiRes Shading, designade för att återge med olika upplösningar i mitten av ramen och i dess periferi.

Men mycket mer oväntat var tillkännagivandet av VRWorks Audio-teknik, designad för högkvalitativ beräkning av ljuddata i 3D-scener, vilket är särskilt viktigt i virtuell verklighetssystem. I konventionella motorer beräknas placeringen av ljudkällor i en virtuell miljö helt korrekt, om fienden skjuter från höger, då är ljudet högre från denna sida av ljudsystemet, och en sådan beräkning är inte alltför krävande för datorkraft .

Men i verkligheten går ljud inte bara mot spelaren, utan åt alla håll och studsar av olika material, liknande hur ljusstrålar studsar. Och i verkligheten hör vi dessa reflektioner, om än inte lika tydligt som direkta ljudvågor. Dessa indirekta ljudreflektioner simuleras vanligtvis av speciella reverb-effekter, men detta är ett mycket primitivt förhållningssätt till uppgiften.

VRWorks Audio använder ljudvågsrendering som liknar strålspårning i rendering, där ljusstrålars väg spåras till flera reflektioner från objekt i en virtuell scen. VRWorks Audio simulerar även utbredningen av ljudvågor i miljön när direkta och reflekterade vågor spåras, beroende på deras infallsvinkel och egenskaperna hos reflekterande material. I sitt arbete använder VRWorks Audio den högpresterande Nvidia OptiX-strålningsmotorn som är känd för grafikuppgifter. OptiX kan användas för en mängd olika uppgifter, såsom indirekt ljusberäkning och ljuskartläggning, och nu även för ljudvågsspårning i VRWorks Audio.

Nvidia har byggt in exakt ljudvågsberäkning i sin VR Funhouse-demo, som använder flera tusen strålar och beräknar upp till 12 reflektioner från objekt. Och för att lära dig fördelarna med tekniken med ett tydligt exempel, föreslår vi att du tittar på en video om hur tekniken fungerar på ryska:

Det är viktigt att Nvidias tillvägagångssätt skiljer sig från traditionella ljudmotorer, inklusive den hårdvaruaccelererade metoden från huvudkonkurrenten som använder ett speciellt block i GPU:n. Alla dessa metoder ger endast exakt positionering av ljudkällor, men beräknar inte reflektionerna av ljudvågor från objekt i en 3D-scen, även om de kan simulera detta med efterklangseffekten. Användningen av strålspårningsteknik kan dock vara mycket mer realistisk, eftersom endast ett sådant tillvägagångssätt kommer att ge en exakt imitation av olika ljud, med hänsyn till storleken, formen och materialen hos objekt i scenen. Det är svårt att säga om en sådan beräkningsnoggrannhet krävs för en typisk spelare, men vi kan säga säkert: i VR kan det tillföra användarna just den realism som fortfarande saknas i konventionella spel.

Tja, det återstår för oss att bara berätta om VR SLI-tekniken, som fungerar i både OpenGL och DirectX. Dess princip är extremt enkel: ett videosystem med två GPU i en VR-applikation kommer att fungera på ett sådant sätt att varje öga tilldelas en separat GPU, i motsats till AFR-renderingen som är bekant med SLI-konfigurationer. Detta förbättrar avsevärt den övergripande prestandan, vilket är så viktigt för virtuella verklighetssystem. Teoretiskt kan fler GPU:er användas, men deras antal måste vara jämnt.

Detta tillvägagångssätt krävdes eftersom AFR inte är väl lämpad för VR, eftersom den första GPU:n med dess hjälp kommer att rita en jämn ram för båda ögonen, och den andra kommer att göra en udda, vilket inte minskar de förseningar som är kritiska för virtuella verklighetssystem. Även om bildfrekvensen kommer att vara ganska hög. Så med hjälp av VR SLI delas arbetet på varje ram upp i två GPU:er - en fungerar på en del av ramen för vänster öga, den andra för höger, och sedan kombineras dessa halvor av ramen till en helhet.

Att dela upp arbete på det här sättet mellan ett par GPU:er ger en 2x prestandaökning, vilket möjliggör högre bildhastigheter och lägre latens jämfört med system baserade på en enda GPU. Det är sant att användningen av VR SLI kräver särskilt stöd från applikationen för att använda denna skalningsmetod. Men VR SLI-teknik är redan inbyggd i VR-demoappar som Valves The Lab och ILMxLAB:s Trials on Tatooine, och det är bara början – Nvidia lovar att andra appar kommer snart, liksom att ta med tekniken till Unreal Engine 4, Unity och Max Spela.

Ansel Game Skärmdump Plattform

Ett av de mest intressanta tillkännagivandena relaterade till programvaran var lanseringen av en teknik för att ta högkvalitativa skärmdumpar i spelapplikationer, uppkallad efter en berömd fotograf - Ansel. Spel har länge inte bara varit spel, utan också en plats att använda lekfulla händer för olika kreativa personligheter. Någon ändrar skript för spel, någon släpper högkvalitativa texturuppsättningar för spel och någon gör vackra skärmdumpar.

Nvidia bestämde sig för att hjälpa den sistnämnda genom att introducera en ny plattform för att skapa (nämligen skapa, eftersom detta inte är en så lätt process) högkvalitativa bilder från spel. De tror att Ansel kan hjälpa till att skapa en ny sorts samtidskonst. När allt kommer omkring finns det redan en hel del artister som tillbringar större delen av sitt liv på datorn och skapar vackra skärmdumpar från spel, och de hade fortfarande inte ett bekvämt verktyg för detta.

Ansel låter dig inte bara fånga bilden i spelet, utan ändra den som skaparen behöver. Med denna teknik kan du flytta kameran runt scenen, rotera och luta den i valfri riktning för att få den önskade kompositionen av ramen. Till exempel, i spel som first-person shooters, kan du bara flytta spelaren, du kan egentligen inte ändra något annat, så alla skärmdumpar är ganska monotona. Med en gratiskamera i Ansel kan du gå långt bortom spelkameran genom att välja den vinkel du behöver för en bra bild, eller till och med fånga en hel 360-graders stereobild från önskad punkt, och i hög upplösning för senare visning i en VR-hjälm.

Ansel fungerar helt enkelt – med hjälp av ett specialbibliotek från Nvidia är denna plattform inbäddad i spelkoden. För att göra detta behöver dess utvecklare bara lägga till en liten bit kod till sitt projekt för att låta Nvidia-videodrivrutinen fånga upp buffert- och shaderdata. Det finns väldigt lite arbete att göra, att ta in Ansel i spelet tar mindre än en dag att implementera. Så inkluderingen av denna funktion i The Witness tog cirka 40 rader kod och i The Witcher 3 - cirka 150 rader kod.

Ansel kommer med ett öppet utvecklingspaket - SDK. Huvudsaken är att användaren får med sig en standarduppsättning inställningar som gör att han kan ändra kamerans position och vinkel, lägga till effekter etc. Ansel-plattformen fungerar så här: den pausar spelet, sätter på gratiskameran och låter dig ändra ramen till önskad vy genom att spela in resultatet i form av en vanlig skärmdump, en 360-graders bild, ett stereopar eller bara ett panorama med hög upplösning.

Den enda varningen är att inte alla spel kommer att få stöd för alla funktioner i Ansel-spelplattformen. Vissa av spelutvecklarna vill av en eller annan anledning inte ha med en helt gratis kamera i sina spel – till exempel på grund av möjligheten för fuskare som använder denna funktionalitet. Eller så vill de begränsa förändringen i betraktningsvinkel av samma anledning – så att ingen får en orättvis fördel. Tja, eller så att användare inte ser eländiga sprites i bakgrunden. Allt detta är helt normala önskemål från spelskapare.

En av de mest intressanta funktionerna hos Ansel är skapandet av skärmdumpar med helt enkelt enorm upplösning. Det spelar ingen roll att spelet stöder upplösningar upp till till exempel 4K och användarens bildskärm är Full HD. Med hjälp av skärmdumpsplattformen kan du fånga en mycket högre bildkvalitet, snarare begränsad av enhetens volym och prestanda. Plattformen tar skärmdumpar på upp till 4,5 gigapixlar med lätthet, ihopsydda från 3600 bitar!

Det är tydligt att på sådana bilder kan du se alla detaljer, upp till texten på tidningarna som ligger på avstånd, om en sådan detaljnivå tillhandahålls i princip i spelet - Ansel kan också styra detaljnivån, inställningen maximal nivå för att få bästa bildkvalitet. Men du kan fortfarande aktivera supersampling. Allt detta gör att du kan skapa bilder från spel som du säkert kan skriva ut på stora banderoller och vara lugn om deras kvalitet.

Intressant nog används en speciell hårdvaruaccelererad kod baserad på CUDA för att sy stora bilder. När allt kommer omkring kan inget grafikkort rendera en multi-gigapixelbild i sin helhet, men det kan göra det i bitar, som du bara behöver kombinera senare, med hänsyn till den möjliga skillnaden i ljussättning, färg och så vidare.

Efter att ha sammanfogat sådana panoramabilder används en speciell efterbearbetning för hela ramen, även accelererad på GPU:n. Och för att ta bilder i ett högre dynamiskt område kan du använda ett speciellt bildformat - EXR, en öppen standard från Industrial Light and Magic, vars färgvärden i varje kanal är inspelade i 16-bitars flyttalsformat (FP16).

Det här formatet låter dig ändra ljusstyrkan och det dynamiska omfånget för bilden i efterbearbetning, vilket gör att den blir önskad för varje specifik skärm på samma sätt som det görs med RAW-format från kameror. Och för efterföljande användning av efterbehandlingsfilter i bildbehandlingsprogram är detta format mycket användbart, eftersom det innehåller mycket mer data än de vanliga bildformaten.

Men själva Ansel-plattformen innehåller många efterbehandlingsfilter, vilket är särskilt viktigt eftersom den inte bara har tillgång till den slutliga bilden, utan även till alla buffertar som används av spelet vid rendering, vilket kan användas för mycket intressanta effekter , som skärpedjup. För att göra detta har Ansel ett speciellt efterbearbetnings-API, och vilken som helst av effekterna kan inkluderas i ett spel med stöd för denna plattform.

Ansel post-filter inkluderar: färgkurvor, färgrymd, transformation, desaturation, ljusstyrka/kontrast, filmkorn, bloom, linsfläns, anamorfisk bländning, distorsion, heathaze, fisheye, färgaberration, tonkartläggning, linssmuts, ljusskaft, vinjett, gammakorrigering, faltning, skärpa, kantdetektering, oskärpa, sepia, denoise, FXAA och andra.

När det gäller utseendet på Ansel-stöd i spel, så måste vi vänta lite tills utvecklarna implementerar och testar det. Men Nvidia lovar att sådant stöd snart kommer att dyka upp i så välkända spel som The Division, The Witness, Lawbreakers, The Witcher 3, Paragon, Fortnite, Obduction, No Man's Sky, Unreal Tournament och andra.

Den nya 16nm FinFET processteknologin och arkitekturoptimeringarna har gjort det möjligt för GeForce GTX 1080 baserad på GP104 GPU att uppnå en hög klockhastighet på 1,6-1,7 GHz även i referensformen, och den nya generationen garanterar högsta möjliga frekvenser i spel GPU Boost tekniker. Tillsammans med ett ökat antal exekveringsenheter gör dessa förbättringar det inte bara till det högst presterande enchips grafikkortet genom tiderna, utan också till den mest energieffektiva lösningen på marknaden.

GeForce GTX 1080 är det första grafikkortet som har det nya GDDR5X-grafikminnet, en ny generation av höghastighetschips som uppnår mycket höga datahastigheter. I fallet med en modifierad GeForce GTX 1080 arbetar denna typ av minne med en effektiv frekvens på 10 GHz. I kombination med förbättrade framebuffer-komprimeringsalgoritmer resulterade detta i en 1,7x ökning av effektiv minnesbandbredd för denna GPU jämfört med dess direkta föregångare, GeForce GTX 980.

Nvidia bestämde sig klokt nog för att inte släppa en radikalt ny arkitektur på en helt ny processteknik för sig själv, för att inte stöta på onödiga problem under utveckling och produktion. Istället förbättrade de på allvar den redan bra och mycket effektiva Maxwell-arkitekturen genom att lägga till några funktioner. Som ett resultat är allt bra med produktionen av nya GPU:er, och i fallet med GeForce GTX 1080-modellen har ingenjörer uppnått en mycket hög frekvenspotential - i överklockade versioner från partners förväntas GPU-frekvensen upp till 2 GHz! En sådan imponerande frekvens blev verklighet tack vare den perfekta tekniska processen och det noggranna arbetet från Nvidias ingenjörer i utvecklingen av Pascal GPU.

Och medan Pascal är en direkt anhängare av Maxwell, och dessa grafikarkitekturer i grunden inte skiljer sig alltför mycket från varandra, har Nvidia infört många förändringar och förbättringar, inklusive visningsmöjligheter, videokodning och avkodningsmotor, förbättrad asynkron exekvering av olika typer av beräkningar på GPU:n, gjorde ändringar i multi-chip-rendering och introducerade en ny synkroniseringsmetod, Fast Sync.

Det är omöjligt att inte lyfta fram Simultaneous Multi-Projection-teknologin, som hjälper till att förbättra prestandan i virtual reality-system, få mer korrekt visning av scener på multi-monitor-system och introducera nya prestandaoptimeringstekniker. Men VR-applikationer kommer att se den största hastighetsökningen när de stöder multiprojektionsteknik, vilket hjälper till att spara GPU-resurser med hälften vid bearbetning av geometrisk data och en och en halv gång i beräkningar per pixel.

Bland de rena mjukvaruförändringarna sticker plattformen för att skapa skärmdumpar i spel som heter Ansel ut - det kommer att vara intressant att prova det i praktiken inte bara för de som spelar mycket, utan också för de som helt enkelt är intresserade av högkvalitativ 3D-grafik . Nyheten låter dig avancera konsten att skapa och retuschera skärmdumpar till en ny nivå. Nåväl, Nvidia fortsätter bara att steg för steg förbättra sådana paket för spelutvecklare som GameWorks och VRWorks - så i det senare har en intressant möjlighet till högkvalitativ ljudberäkning dykt upp, med hänsyn tagen till många reflektioner av ljudvågor med hårdvarustrålespårning .

I allmänhet, i form av grafikkortet Nvidia GeForce GTX 1080, kom en riktig ledare in på marknaden, med alla nödvändiga egenskaper för detta: hög prestanda och bred funktionalitet, samt stöd för nya funktioner och algoritmer. Tidiga användare av detta grafikkort kommer att kunna uppleva många av dessa fördelar direkt, medan andra funktioner i lösningen kommer att avslöjas lite senare, när det finns utbrett stöd från programvaran. Huvudsaken är att GeForce GTX 1080 visade sig vara väldigt snabb och effektiv, och som vi verkligen hoppas lyckades Nvidias ingenjörer fixa några av problemområdena (samma asynkrona beräkningar).

Grafikaccelerator GeForce GTX 1070

ParameterMenande
ChipkodnamnGP104
Produktionsteknik16nm FinFET
Antal transistorer7,2 miljarder
Kärnområde314 mm²
ArkitekturUnified, med en rad gemensamma processorer för strömbehandling av många typer av data: hörn, pixlar, etc.
DirectX hårdvarustödDirectX 12, med stöd för funktionsnivå 12_1
Minnesbuss256-bitar: åtta oberoende 32-bitars minneskontroller som stöder GDDR5- och GDDR5X-minnen
GPU-frekvens1506 (1683) MHz
Beräkningsblock15 aktiva (av 20 i chipet) strömmande multiprocessorer, inklusive 1920 (av 2560) skalära ALU:er för flyttalsberäkningar inom ramen för IEEE 754-2008-standarden;
Texturerande block120 aktiva (av 160 i chipet) texturadresserings- och filtreringsenheter med stöd för FP16- och FP32-komponenter i texturer och stöd för trilinjär och anisotropisk filtrering för alla texturformat
Raster Operations Units (ROPs)8 breda ROP:er (64 pixlar) med stöd för olika kantutjämningslägen, inklusive programmerbara och med FP16 eller FP32 rambuffertformat. Block består av en rad konfigurerbara ALU:er och ansvarar för djupgenerering och jämförelse, multisampling och blandning
Övervaka supportIntegrerat stöd för upp till fyra bildskärmar anslutna via Dual Link DVI, HDMI 2.0b och DisplayPort 1.2 (1.3/1.4 Ready)

GeForce GTX 1070 referensgrafikspecifikationer
ParameterMenande
Kärnfrekvens1506 (1683) MHz
Antal universella processorer1920
Antal texturblock120
Antal blandningsblock64
Effektiv minnesfrekvens8000 (4×2000) MHz
MinnestypGDDR5
Minnesbuss256-bitars
Minnesstorlek8 GB
minnesbandbredd256 GB/s
Datorprestanda (FP32)ca 6,5 ​​teraflops
Teoretisk maximal fyllnadsgrad96 gigapixel/s
Teoretisk textursamplingshastighet181 gigatex/s
DäckPCI Express 3.0
KontakterEn Dual Link DVI, en HDMI och tre DisplayPort
Energiförbrukningupp till 150 W
Extra matEn 8-polig kontakt
Antal platser upptagna i systemchassit2
Rekommenderat pris379–449 $ (USA), 34 990 (Ryssland)

Grafikkortet GeForce GTX 1070 fick också ett logiskt namn som liknar samma lösning från den tidigare GeForce-serien. Den skiljer sig från sin direkta föregångare GeForce GTX 970 endast i ett ändrat generationsnummer. Nyheten blir ett steg under den nuvarande topplösningen GeForce GTX 1080 i företagets nuvarande linje, som blev det tillfälliga flaggskeppet i den nya serien fram till lanseringen av ännu kraftfullare GPU-lösningar.

De rekommenderade priserna för Nvidias nya toppvideokort är $379 och $449 för vanliga Nvidia Partners respektive Founders Edition. Jämfört med toppmodellen är detta ett mycket bra pris med tanke på att GTX 1070 i värsta fall ligger cirka 25 % bakom sig. Och vid tidpunkten för tillkännagivandet och releasen blir GTX 1070 den bästa prestandalösningen i sin klass. Precis som GeForce GTX 1080 har GTX 1070 inga direkta konkurrenter från AMD, och kan bara jämföras med Radeon R9 390X och Fury.

GP104 GPU i GeForce GTX 1070-modifieringen bestämde sig för att lämna en full 256-bitars minnesbuss, även om de inte använde en ny typ av GDDR5X-minne, utan en mycket snabb GDDR5, som arbetar med en hög effektiv frekvens på 8 GHz. Mängden minne installerat på ett grafikkort med en sådan buss kan vara 4 eller 8 GB, och för att säkerställa maximal prestanda för den nya lösningen under förhållanden med höga inställningar och renderingsupplösningar, utrustades också grafikkortsmodellen GeForce GTX 1070 med 8 GB videominne, som sin äldre syster. Denna volym räcker för att köra alla 3D-applikationer med maximala kvalitetsinställningar i flera år.

GeForce GTX 1070 Founders Edition

I och med tillkännagivandet av GeForce GTX 1080 i början av maj tillkännagavs en specialutgåva av grafikkortet kallat Founders Edition, som har ett högre pris än vanliga grafikkort från företagets partners. Detsamma gäller nyheten. I den här artikeln kommer vi återigen att prata om en specialutgåva av grafikkortet GeForce GTX 1070 som heter Founders Edition. Precis som i fallet med den äldre modellen bestämde sig Nvidia för att släppa denna version av tillverkarens referensgrafikkort till ett högre pris. De hävdar att många spelare och entusiaster som köper dyra toppgrafikkort vill ha en produkt med ett passande "premium" utseende och känsla.

Följaktligen är det för sådana användare som grafikkortet GeForce GTX 1070 Founders Edition kommer att släppas på marknaden, som är designat och tillverkat av Nvidias ingenjörer av förstklassiga material och komponenter, såsom GeForce GTX 1070 Founders Edition aluminiumhölje, också som en lågprofil bakplatta som täcker baksidan av PCB och ganska populär bland entusiaster.

Som du kan se från bilderna på tavlan, ärvde GeForce GTX 1070 Founders Edition exakt samma industriella design från referensversionen av GeForce GTX 1080 Founders Edition. Båda modellerna använder en radiell fläkt som blåser ut uppvärmd luft, vilket är mycket användbart i både små fall och multi-chip SLI-konfigurationer med begränsat fysiskt utrymme. Genom att blåsa ut uppvärmd luft istället för att cirkulera den inuti höljet kan du minska termisk stress, förbättra överklockningsresultaten och förlänga livslängden på systemkomponenter.

Under locket till referenskylsystemet GeForce GTX 1070 döljer sig en specialformad aluminiumradiator med tre inbyggda kopparvärmepipor som tar bort värme från själva GPU:n. Värmen som avleds av värmerören avleds sedan av en kylfläns av aluminium. Tja, den lågprofilerade metallplattan på baksidan av brädan är också designad för att ge bättre termisk prestanda. Den har också en infällbar sektion för bättre luftflöde mellan flera grafikkort i SLI-konfigurationer.

När det gäller kortets strömsystem har GeForce GTX 1070 Founders Edition ett fyrfas strömsystem optimerat för en stabil strömförsörjning. Nvidia hävdar att användningen av speciella komponenter i GTX 1070 Founders Edition förbättrar energieffektiviteten, stabiliteten och tillförlitligheten jämfört med GeForce GTX 970, vilket ger bättre överklockningsprestanda. I företagets egna tester överträffade GeForce GTX 1070 GPU:erna lätt 1,9 GHz, vilket är nära resultaten för den äldre GTX 1080-modellen.

Nvidia GeForce GTX 1070 grafikkort kommer att finnas tillgängligt i butiker från och med den 10 juni. De rekommenderade priserna för GeForce GTX 1070 Founders Edition och partnerlösningar är olika, och detta är huvudfrågan för denna specialutgåva. Om Nvidia-partners säljer sina GeForce GTX 1070-grafikkort från 379 $ (på den amerikanska marknaden), så kommer Nvidias referensdesign Founders Edition att kosta så lite som 449 $. Finns det många entusiaster som är redo att betala för mycket för, låt oss inse det, de tvivelaktiga fördelarna med referensversionen? Tiden får utvisa, men vi tror att referensavgiften är mer intressant som ett alternativ som är tillgängligt för köp redan i början av försäljningen, och senare är poängen med att köpa den (och till och med till ett högt pris!) redan reducerad till noll.

Det återstår att tillägga att det tryckta kretskortet på referensen GeForce GTX 1070 liknar det för det äldre grafikkortet, och båda skiljer sig från enheten i företagets tidigare kort. Det typiska strömförbrukningsvärdet för den nya produkten är 150 W, vilket är nästan 20 % mindre än värdet för GTX 1080 och nära strömförbrukningen för föregående generations grafikkort GeForce GTX 970. Nvidia-referenskortet har en bekant uppsättning av kontakter för anslutning av bildutgångsenheter: en Dual-Link DVI, en HDMI och tre DisplayPort. Dessutom finns det stöd för nya versioner av HDMI och DisplayPort, som vi skrev om ovan i recensionen av GTX 1080-modellen.

Arkitektoniska förändringar

GeForce GTX 1070 är baserad på GP104-chippet, det första i en ny generation av Nvidias Pascal-grafikarkitektur. Denna arkitektur baserades på lösningarna som utvecklats tillbaka i Maxwell, men den har också några funktionella skillnader, som vi skrev om i detalj ovan - i delen som ägnas åt det översta GeForce GTX 1080-grafikkortet.

Den största förändringen av den nya arkitekturen var den tekniska processen genom vilken alla nya GPU:er kommer att exekveras. Användningen av 16 nm FinFET-tillverkningsprocessen i produktionen av GP104 gjorde det möjligt att avsevärt öka chipets komplexitet samtidigt som en relativt låg yta och kostnad bibehölls, och det allra första chipet i Pascal-arkitekturen har ett betydligt större antal utförande enheter, inklusive de som ger ny funktionalitet, jämfört med Maxwell-chips med liknande positionering.

GP104-videochippet liknar i sin design liknande Maxwell-arkitekturlösningar, och du kan hitta detaljerad information om designen av moderna GPU:er i våra recensioner av tidigare Nvidia-lösningar. Liksom tidigare GPU:er kommer chipsen i den nya arkitekturen att ha en annan konfiguration av Graphics Processing Cluster (GPC), Streaming Multiprocessor (SM) och minneskontroller, och vissa förändringar har redan skett i GeForce GTX 1070 - en del av chippet var låst och inaktiv (markerad i grått):

Även om GP104 GPU innehåller fyra GPC-kluster och 20 SM-multiprocessorer, fick den i versionen för GeForce GTX 1070 en avskalad modifiering med ett GPC-kluster inaktiverat av hårdvara. Eftersom varje GPC-kluster har en dedikerad rasteriseringsmotor och inkluderar fem SM:er, och varje multiprocessor består av 128 CUDA-kärnor och åtta textur-TMU:er, är 1920 CUDA-kärnor och 120 TMU:er av 2560 strömprocessorer aktiva i denna version av GP104 och 160 fysiska texturenheter.

Grafikprocessorn som GeForce GTX 1070 är baserad på innehåller åtta 32-bitars minneskontroller, vilket resulterar i en total 256-bitars minnesbuss - precis som i fallet med den äldre modellen GTX 1080. Minnesdelsystemet har inte trimmats i ordning att tillhandahålla ett tillräckligt hög bandbreddsminne med villkoret att använda GDDR5-minne i GeForce GTX 1070. Var och en av minneskontrollerna har åtta ROPs och 256 KB L2-cache, så GP104-chippet i denna modifiering innehåller också 64 ROPs och 2048 KB av L2 cachenivå.

Tack vare arkitektoniska optimeringar och en ny processteknik har GP104 GPU blivit den mest energieffektiva GPU:n hittills. Nvidias ingenjörer kunde öka klockhastigheten mer än de förväntade sig när de gick över till en ny process, för vilken de var tvungna att arbeta hårt, noggrant kontrollera och optimera alla flaskhalsar i tidigare lösningar som inte tillät dem att arbeta med en högre frekvens. Följaktligen arbetar GeForce GTX 1070 också med en mycket hög frekvens, mer än 40 % högre än referensvärdet för GeForce GTX 970.

Eftersom GeForce GTX 1070 i grunden bara är en något mindre produktiv GTX 1080 med GDDR5-minne, stöder den absolut alla teknologier vi beskrev i föregående avsnitt. För mer information om Pascal-arkitekturen, såväl som de teknologier som den stöder, såsom förbättrade utgångs- och videobehandlingsenheter, Async Compute-stöd, Simultaneous Multi-Projection-teknik, förändringar i SLI-multichip-rendering och den nya Fast Sync-synkroniseringstypen , det är värt att läsa med ett avsnitt om GTX 1080.

Högpresterande GDDR5-minne och dess effektiva användning

Vi skrev ovan om förändringar i minnesundersystemet för GP104 GPU, som modellerna GeForce GTX 1080 och GTX 1070 är baserade på - minneskontrollerna som ingår i denna GPU stöder både den nya typen av GDDR5X videominne, som beskrivs i detalj i GTX 1080-recensionen, samt och det gamla goda GDDR5-minnet som vi har känt till i flera år nu.

För att inte tappa för mycket i minnesbandbredd i den yngre GTX 1070 jämfört med den äldre GTX 1080, lämnades alla åtta 32-bitars minneskontroller aktiva i den och fick ett fullständigt 256-bitars gemensamt videominnesgränssnitt. Dessutom var grafikkortet utrustat med det snabbaste GDDR5-minnet som finns på marknaden – med en effektiv driftsfrekvens på 8 GHz. Allt detta gav en minnesbandbredd på 256 GB/s, i motsats till 320 GB/s för den äldre lösningen - datorkapaciteten skars ner med ungefär samma mängd, så att balansen upprätthölls.

Tänk på att även om maximal teoretisk bandbredd är viktig för GPU-prestanda, måste du också vara uppmärksam på dess effektivitet. Under renderingsprocessen kan många olika flaskhalsar begränsa den övergripande prestandan, vilket förhindrar användningen av all tillgänglig minnesbandbredd. För att minimera dessa flaskhalsar använder GPU:er speciell förlustfri datakomprimering för att förbättra effektiviteten för dataläsning och skrivning.

Den fjärde generationen deltakomprimering av buffertinformation har redan introducerats i Pascal-arkitekturen, vilket gör att GPU:n kan använda de tillgängliga funktionerna hos videominnesbussen mer effektivt. Minnesundersystemet i GeForce GTX 1070 och GTX 1080 använder förbättrade gamla och flera nya förlustfria datakomprimeringstekniker utformade för att minska bandbreddskraven. Detta minskar mängden data som skrivs till minnet, förbättrar L2-cacheeffektiviteten och minskar mängden data som skickas mellan olika punkter på GPU:n, som TMU och framebuffer.

GPU Boost 3.0 och överklockningsfunktioner

De flesta av Nvidias partners har redan tillkännagett fabriksöverklockade lösningar baserade på GeForce GTX 1080 och GTX 1070. Och många av grafikkortstillverkarna skapar även speciella överklockningsverktyg som låter dig använda den nya funktionaliteten i GPU Boost 3.0-tekniken. Ett exempel på sådana verktyg är EVGA Precision XOC, som inkluderar en automatisk skanner för att bestämma spänning-till-frekvens-kurvan - i detta läge, för varje spänningsvärde, genom att köra ett stabilitetstest, hittas en stabil frekvens vid vilken GPU:n tillhandahåller en prestationshöjning. Denna kurva kan dock också ändras manuellt.

Vi känner till GPU Boost-tekniken väl från tidigare Nvidia-grafikkort. I sina GPU:er använder de denna hårdvarufunktion, som är utformad för att öka GPU:ns driftsklockhastighet i lägen där den ännu inte har nått gränserna för strömförbrukning och värmeavledning. I Pascal GPU:er har denna algoritm genomgått flera förändringar, varav den huvudsakliga är en finare inställning av turbofrekvenser, beroende på spänningen.

Om skillnaden mellan basfrekvensen och turbofrekvensen tidigare var fixerad, blev det i GPU Boost 3.0 möjligt att ställa in turbofrekvensoffset för varje spänning separat. Nu kan turbofrekvensen ställas in för vart och ett av de individuella spänningsvärdena, vilket gör att du helt kan pressa ut alla överklockningsmöjligheter ur GPU:n. Vi skrev om den här funktionen i detalj i GeForce GTX 1080-recensionen, och du kan använda verktygen EVGA Precision XOC och MSI Afterburner för detta.

Eftersom vissa detaljer har ändrats i överklockningsmetodiken i och med lanseringen av grafikkort med stöd för GPU Boost 3.0, var Nvidia tvungen att göra ytterligare förklaringar i instruktionerna för överklockning av nya produkter. Det finns olika överklockningstekniker med olika variabla egenskaper som påverkar slutresultatet. För varje särskilt system kan en viss metod vara bättre lämpad, men grunderna är alltid ungefär desamma.

Många överklockare använder Unigine Heaven 4.0-riktmärket för att kontrollera systemstabilitet, som laddar GPU:n bra, har flexibla inställningar och kan köras i fönsterläge tillsammans med ett överklocknings- och övervakningsverktyg i närheten, som EVGA Precision eller MSI Afterburner. En sådan kontroll räcker dock bara för initiala uppskattningar, och för att bestämt bekräfta stabiliteten hos överklockning måste den kontrolleras i flera spelapplikationer, eftersom olika spel kräver olika belastningar på olika funktionella enheter i GPU:n: matematisk, textur, geometrisk. Heaven 4.0-riktmärket är också bekvämt för överklockning eftersom det har ett loopat driftläge, där det är bekvämt att ändra överklockningsinställningar, och det finns ett riktmärke för att utvärdera hastighetsökningen.

Nvidia rekommenderar att man kör Heaven 4.0 och EVGA Precision XOC-fönster tillsammans när man överklockar de nya GeForce GTX 1080 och GTX 1070 grafikkorten. Till en början är det önskvärt att omedelbart öka fläkthastigheten. Och för seriös överklockning kan du omedelbart ställa in hastighetsvärdet till 100%, vilket kommer att göra grafikkortet väldigt högt, men kommer att kyla grafikkortets grafikkort och andra komponenter så mycket som möjligt genom att sänka temperaturen till lägsta möjliga nivå , förhindrar strypning (minskning av frekvenser på grund av en ökning av GPU-temperaturen över ett visst värde).

Därefter måste du även ställa in måleffektvärdet (Power Target) till det maximala. Den här inställningen ger GPU:n den maximala mängden ström som är möjlig genom att öka strömförbrukningsnivån och måltemperaturen för GPU:n (GPU Temp Target). För vissa ändamål kan det andra värdet separeras från Power Target-ändringen, och sedan kan dessa inställningar justeras individuellt - för att till exempel uppnå mindre uppvärmning av videochippet.

Nästa steg är att öka GPU Clock Offset-värdet - det betyder hur mycket högre turbofrekvensen kommer att vara under drift. Detta värde höjer frekvensen för alla spänningar och ger bättre prestanda. Som vanligt, när du överklockar, måste du kontrollera stabiliteten när du ökar frekvensen på GPU:n i små steg - från 10 MHz till 50 MHz per steg innan du märker ett häng, drivrutins- eller applikationsfel, eller till och med visuella artefakter. När denna gräns är nådd bör du sänka frekvensvärdet ett steg ned och återigen kontrollera stabiliteten och prestandan vid överklockning.

Utöver GPU-frekvensen kan du även öka videominnesfrekvensen (Memory Clock Offset), vilket är särskilt viktigt i fallet med GeForce GTX 1070 utrustad med GDDR5-minne, som vanligtvis överklockar bra. Processen i fallet med minnesfrekvensen upprepar exakt vad som görs när man hittar en stabil GPU-frekvens, den enda skillnaden är att stegen kan göras större – lägg till 50-100 MHz till basfrekvensen på en gång.

Utöver ovanstående steg kan du också öka överspänningsgränsen, eftersom en högre GPU-frekvens ofta uppnås vid ökad spänning, när instabila delar av GPU:n får extra ström. Det är sant att en potentiell nackdel med att öka detta värde är möjligheten att skada videochippet och dess accelererade fel, så du måste använda en spänningsökning med extrem försiktighet.

Överklockningsentusiaster använder lite olika tekniker och ändrar parametrarna i en annan ordning. Till exempel delar vissa överklockare på experiment för att hitta en stabil GPU och minnesfrekvens så att de inte stör varandra, och testar sedan den kombinerade överklockningen av både videochippet och minneschipsen, men det är redan obetydliga detaljer för ett individuellt tillvägagångssätt. .

Att döma av åsikterna i forumen och kommentarerna om artiklar, gillade vissa användare inte den nya GPU Boost 3.0-operationsalgoritmen, när GPU-frekvensen först stiger mycket högt, ofta högre än turbofrekvensen, men sedan under påverkan av en ökning i GPU-temperatur eller ökad strömförbrukning över den inställda gränsen kan den sjunka till mycket lägre värden. Detta är bara detaljerna i den uppdaterade algoritmen, du måste vänja dig vid det nya beteendet hos den dynamiskt föränderliga GPU-frekvensen, men det har inga negativa konsekvenser.

GeForce GTX 1070 är den andra modellen efter GTX 1080 i Nvidias nya linje av grafikprocessorer baserade på Pascal-familjen. Den nya 16nm FinFET-tillverkningsprocessen och arkitekturoptimeringarna har gjort det möjligt för detta grafikkort att uppnå höga klockhastigheter, vilket stöds av den nya generationen GPU Boost-teknik. Även om antalet funktionsblock i form av strömprocessorer och texturmoduler har minskat, är antalet fortfarande tillräckligt för att GTX 1070 ska bli den mest lönsamma och energieffektiva lösningen.

Att installera GDDR5-minne på den yngsta av ett par släppta modeller av Nvidia-videokort på ett GP104-chip, till skillnad från den nya typen av GDDR5X som utmärker GTX 1080, hindrar inte den från att uppnå högpresterande indikatorer. För det första beslutade Nvidia att inte klippa minnesbussen till GeForce GTX 1070-modellen, och för det andra satte de det snabbaste GDDR5-minnet på den med en effektiv frekvens på 8 GHz, vilket bara är något lägre än 10 GHz för GDDR5X som används i äldre modell. Dessutom, med förbättrade delta-komprimeringsalgoritmer, har den effektiva minnesbandbredden för GPU:n blivit högre än samma parameter för en liknande modell av den tidigare generationens GeForce GTX 970.

GeForce GTX 1070 är bra genom att den erbjuder mycket hög prestanda och stöd för nya funktioner och algoritmer till ett mycket lägre pris jämfört med den äldre modellen som tillkännagavs lite tidigare. Om ett fåtal entusiaster har råd att köpa en GTX 1080 för 55 000, så kommer en mycket större krets av potentiella köpare att kunna betala 35 000 för bara en fjärdedel av en mindre produktiv lösning med exakt samma möjligheter. Det var kombinationen av relativt lågt pris och hög prestanda som gjorde GeForce GTX 1070 till det kanske mest lönsamma köpet vid tidpunkten för lanseringen.

Grafikaccelerator GeForce GTX 1060

ParameterMenande
ChipkodnamnGP106
Produktionsteknik16nm FinFET
Antal transistorer4,4 miljarder
Kärnområde200 mm²
ArkitekturUnified, med en rad gemensamma processorer för strömbehandling av många typer av data: hörn, pixlar, etc.
DirectX hårdvarustödDirectX 12, med stöd för funktionsnivå 12_1
Minnesbuss192-bitar: sex oberoende 32-bitars minneskontroller som stöder GDDR5-minne
GPU-frekvens1506 (1708) MHz
Beräkningsblock10 strömmande multiprocessorer, inklusive 1280 skalära ALU:er för flyttalsberäkningar inom IEEE 754-2008-standarden;
Texturerande block80 texturadresserings- och filtreringsenheter med stöd för FP16- och FP32-komponenter i texturer och stöd för trilinjär och anisotropisk filtrering för alla texturformat
Raster Operations Units (ROPs)6 breda ROP:er (48 pixlar) med stöd för olika kantutjämningslägen, inklusive programmerbara och med FP16 eller FP32 rambuffertformat. Block består av en rad konfigurerbara ALU:er och ansvarar för djupgenerering och jämförelse, multisampling och blandning
Övervaka supportIntegrerat stöd för upp till fyra bildskärmar anslutna via Dual Link DVI, HDMI 2.0b och DisplayPort 1.2 (1.3/1.4 Ready)

GeForce GTX 1060 referensgrafikspecifikationer
ParameterMenande
Kärnfrekvens1506 (1708) MHz
Antal universella processorer1280
Antal texturblock80
Antal blandningsblock48
Effektiv minnesfrekvens8000 (4×2000) MHz
MinnestypGDDR5
Minnesbuss192-bitars
Minnesstorlek6 GB
minnesbandbredd192 GB/s
Datorprestanda (FP32)ca 4 teraflops
Teoretisk maximal fyllnadsgrad72 gigapixel/s
Teoretisk textursamplingshastighet121 gigatex/s
DäckPCI Express 3.0
KontakterEn Dual Link DVI, en HDMI och tre DisplayPort
Typisk strömförbrukning120 W
Extra matEn 6-polig kontakt
Antal platser upptagna i systemchassit2
Rekommenderat pris249 $ (299 $) i USA och 18 990 i Ryssland

Grafikkortet GeForce GTX 1060 fick också ett namn som liknar samma lösning från den tidigare GeForce-serien, och skiljer sig från namnet på dess direkta föregångare GeForce GTX 960 endast genom den ändrade första siffran i generationen. Nyheten har blivit i företagets nuvarande linje ett steg lägre än den tidigare släppta GeForce GTX 1070-lösningen, som är genomsnittlig när det gäller hastighet i den nya serien.

De rekommenderade priserna för Nvidias nya grafikkort är $249 och $299 för de vanliga versionerna av företagets partners respektive för den speciella Founder's Edition. Jämfört med de två äldre modellerna är detta ett mycket fördelaktigt pris, eftersom den nya GTX 1060-modellen, även om den är sämre än toppmoderna moderkort, inte är i närheten av lika mycket som den är billigare. Vid tidpunkten för tillkännagivandet blev nyheten definitivt den bästa prestandalösningen i sin klass och ett av de mest lönsamma erbjudandena i denna prisklass.

Denna modell av Nvidias Pascal-familjens grafikkort kom ut för att motverka det nya beslutet från det rivaliserande företaget AMD, som släppte Radeon RX 480 lite tidigare. Du kan jämföra det nya Nvidia-grafikkortet med detta grafikkort, om än inte helt direkt, eftersom de skiljer sig fortfarande ganska mycket i pris. GeForce GTX 1060 är dyrare ($249-299 mot $199-229), men den är också klart snabbare än sin konkurrent.

GP106-grafikprocessorn har en 192-bitars minnesbuss, så mängden minne installerat på ett grafikkort med en sådan buss kan vara 3 eller 6 GB. Ett mindre värde i moderna förhållanden är uppriktigt sagt inte tillräckligt, och många spelprojekt, även i Full HD-upplösning, kommer att stöta på en brist på videominne, vilket allvarligt kommer att påverka jämnheten i renderingen. För att säkerställa maximal prestanda för den nya lösningen vid höga inställningar var GeForce GTX 1060-modellen utrustad med 6 GB videominne, vilket räcker för att köra alla 3D-applikationer med alla kvalitetsinställningar. Dessutom är det idag helt enkelt ingen skillnad mellan 6 och 8 GB, och en sådan lösning kommer att spara lite pengar.

Det typiska strömförbrukningsvärdet för den nya produkten är 120 W, vilket är 20 % mindre än värdet för GTX 1070 och är lika med strömförbrukningen för den tidigare generationens GeForce GTX 960 grafikkort, som har mycket lägre prestanda och kapacitet. Referenskortet har den vanliga uppsättningen kontakter för anslutning av bildutgångsenheter: en Dual-Link DVI, en HDMI och tre DisplayPort. Dessutom fanns det stöd för nya versioner av HDMI och DisplayPort, vilket vi skrev om i recensionen av GTX 1080-modellen.

Längden på GeForce GTX 1060 referenskortet är 9,8 tum (25 cm), och från skillnaderna från de äldre alternativen noterar vi separat att GeForce GTX 1060 inte stöder SLI multi-chip-renderingskonfigurationen och inte har en specialkontakt för detta. Eftersom kortet förbrukar mindre ström än äldre modeller installerades en 6-stifts PCI-E extern strömkontakt på kortet för extra ström.

GeForce GTX 1060 grafikkort har dykt upp på marknaden sedan dagen för tillkännagivandet i form av produkter från företagets partners: Asus, EVGA, Gainward, Gigabyte, Innovision 3D, MSI, Palit, Zotac. En specialutgåva av GeForce GTX 1060 Founder's Edition, producerad av Nvidia själv, kommer att släppas i begränsade mängder, som kommer att säljas till ett pris av $299 exklusivt på Nvidias webbplats och kommer inte att presenteras officiellt i Ryssland. Founder's Edition kännetecknas av att den är gjord av högkvalitativa material och komponenter, inklusive ett aluminiumhölje, och använder ett effektivt kylsystem, såväl som kraftkretsar med låg resistans och specialdesignade spänningsregulatorer.

Arkitektoniska förändringar

Grafikkortet GeForce GTX 1060 är baserat på en helt ny grafikprocessor modell GP106, som funktionellt sett inte skiljer sig från Pascal-arkitekturens förstfödda i form av GP104-chippet, på vilket modellerna GeForce GTX 1080 och GTX 1070 beskrevs. Den här arkitekturen baserades på lösningar som utarbetades i Maxwell, men den har också några funktionella skillnader, som vi skrev om i detalj tidigare.

GP106-videochippet liknar sin design av toppmoderna Pascal-chippet och liknande lösningar i Maxwell-arkitekturen, och du kan hitta detaljerad information om designen av moderna grafikprocessorer i våra recensioner av tidigare Nvidia-lösningar. Liksom tidigare GPU:er har chipsen i den nya arkitekturen en annan konfiguration av Graphics Processing Cluster (GPC), Streaming Multiprocessor (SM) och minneskontroller:

GP106-grafikprocessorn innehåller två GPC-kluster, bestående av 10 strömmande multiprocessorer (Streaming Multiprocessor - SM), det vill säga exakt hälften av GP104. Liksom i den äldre GPU:n innehåller var och en av multiprocessorerna 128 kärnor, 8 TMU-texturenheter, 256 KB registerminne, 96 KB delat minne och 48 KB L1-cache. Som ett resultat innehåller GeForce GTX 1060 totalt 1 280 beräkningskärnor och 80 texturenheter, hälften av GTX 1080.

Men minnesundersystemet i GeForce GTX 1060 halverades inte i förhållande till topplösningen, det innehåller sex 32-bitars minneskontroller, vilket ger den sista 192-bitars minnesbussen. Med en effektiv frekvens av GDDR5-videominne för GeForce GTX 1060 lika med 8 GHz, når bandbredden 192 GB / s, vilket är ganska bra för en lösning i detta prissegment, särskilt med tanke på den höga effektiviteten av dess användning i Pascal. Var och en av minneskontrollerna har åtta ROPs och 256 KB L2-cache associerad med sig, så totalt innehåller den fullständiga versionen av GP106 GPU 48 ROPs och 1536 KB L2-cache.

För att minska kraven på minnesbandbredd och mer effektivt använda den tillgängliga Pascal-arkitekturen, har förlustfri datakomprimering på chipet förbättrats ytterligare, vilket kan komprimera data i buffertar, vilket ger effektivitet och prestandavinster. I synnerhet har nya delta-komprimeringsmetoder med förhållandena 4:1 och 8:1 lagts till chipsen i den nya familjen, vilket ger ytterligare 20 % till effektiviteten för minnesbandbredden jämfört med tidigare lösningar i Maxwell-familjen.

Basfrekvensen för den nya grafikprocessorn är 1506 MHz - frekvensen bör i princip inte falla under detta märke. Den typiska turboklockan (Boost Clock) är mycket högre på 1708 MHz, vilket är genomsnittet av den faktiska frekvensen som grafikkretsen GeForce GTX 1060 körs på i ett brett utbud av spel och 3D-applikationer. Den faktiska Boost-frekvensen beror på spelet och de förhållanden under vilka testet äger rum.

Liksom resten av Pascal-familjen arbetar GeForce GTX 1060 inte bara med en hög klockhastighet, vilket ger hög prestanda, utan har också en anständig marginal för överklockning. De första experimenten indikerar möjligheten att nå frekvenser i storleksordningen 2 GHz. Det är inte förvånande att företagets partners också förbereder fabriksöverklockade versioner av grafikkortet GTX 1060.

Så, den viktigaste förändringen i den nya arkitekturen var 16 nm FinFET-processen, vars användning i produktionen av GP106 gjorde det möjligt att avsevärt öka chipets komplexitet samtidigt som en relativt låg yta på 200 mm² bibehölls, så detta Pascal-arkitekturchip har ett betydligt större antal exekveringsenheter jämfört med ett Maxwell-chip med liknande positionering producerat med 28 nm processteknik.

Om GM206 (GTX 960) med en yta på 227 mm² hade 3 miljarder transistorer och 1024 ALU, 64 TMU, 32 ROP och en 128-bitars buss, så innehöll den nya GPU:er 4,4 miljarder transistorer, 1280 ALU:er, i 200 mm², 80 TMU och 48 ROP med en 192-bitars buss. Dessutom, vid nästan en och en halv gånger högre frekvens: 1506 (1708) kontra 1126 (1178) MHz. Och detta är med samma strömförbrukning på 120 watt! Som ett resultat har GP106 GPU blivit en av de mest energieffektiva GPU:erna, tillsammans med GP104.

Ny Nvidia-teknik

En av de mest intressanta teknologierna i företaget, som stöds av GeForce GTX 1060 och andra lösningar från Pascal-familjen, är tekniken Nvidia simultan multiprojektion. Vi skrev redan om denna teknik i GeForce GTX 1080-recensionen, den låter dig använda flera nya tekniker för att optimera renderingen. I synnerhet - att samtidigt projicera en VR-bild för två ögon samtidigt, vilket avsevärt ökar effektiviteten av att använda GPU:n i virtuell verklighet.

För att stödja SMP har alla GPU:er i Pascal-familjen en speciell motor, som är placerad i PolyMorph Engine i slutet av den geometriska pipelinen före rasterizern. Med den kan GPU:n samtidigt projicera en geometrisk primitiv på flera projektioner från en punkt, medan dessa projektioner kan vara stereo (dvs. upp till 16 eller 32 projektioner stöds samtidigt). Denna funktion gör det möjligt för Pascal GPU:er att exakt återge en krökt yta för VR-rendering, samt visa korrekt på system med flera bildskärmar.

Det är viktigt att Simultaneous Multi-Projection-tekniken redan integreras i populära spelmotorer (Unreal Engine och Unity) och spel, och hittills har stöd för tekniken annonserats för mer än 30 spel under utveckling, inklusive sådana välkända projekt som Unreal Tournament , Poolnation VR, Everest VR, Obduction, Adr1ft och Raw Data. Intressant nog, även om Unreal Tournament inte är ett VR-spel, använder det SMP för att uppnå bättre bild och prestanda.

En annan efterlängtad teknik är ett kraftfullt verktyg för att skapa skärmdumpar i spel. Nvidia Ansel. Detta verktyg låter dig skapa ovanliga och mycket högkvalitativa skärmdumpar från spel, med tidigare otillgängliga funktioner, spara dem i mycket hög upplösning och komplettera dem med olika effekter och dela dina skapelser. Ansel låter dig bokstavligen bygga en skärmdump som artisten vill ha den, så att du kan installera en kamera med valfria parametrar var som helst i scenen, använda kraftfulla efterfilter på bilden eller till och med ta en 360-graders bild för visning i en virtuell verklighetshjälm.

Nvidia har standardiserat integrationen av Ansel UI i spel, och att göra det är lika enkelt som att lägga till några rader kod. Det är inte längre nödvändigt att vänta på att den här funktionen ska dyka upp i spel, du kan utvärdera Ansels förmågor just nu i Mirror's Edge: Catalyst, och lite senare kommer den att bli tillgänglig i Witcher 3: Wild Hunt. Dessutom är många Ansel-aktiverade spelprojekt under utveckling, inklusive spel som Fortnite, Paragon och Unreal Tournament, Obduction, The Witness, Lawbreakers, Tom Clancy's The Division, No Man's Sky och mer.

Den nya GeForce GTX 1060 GPU stöder också verktygslådan Nvidia VRWorks, som hjälper utvecklare att skapa imponerande projekt för virtuell verklighet. Det här paketet innehåller många verktyg och verktyg för utvecklare, inklusive VRWorks Audio, som låter dig utföra mycket exakta beräkningar av reflektioner av ljudvågor från scenobjekt med hjälp av GPU-strålspårning. Paketet inkluderar också integration med VR- och PhysX-fysikeffekter för att säkerställa fysiskt korrekt beteende hos objekt i scenen.

Ett av de mest spännande VR-spelen att dra nytta av VRWorks är VR Funhouse, Nvidias eget VR-spel, tillgängligt gratis på Valves Steam-tjänst. Det här spelet drivs av Unreal Engine 4 (Epic Games) och körs på GeForce GTX 1080, 1070 och 1060 grafikkort i kombination med HTC Vive VR-headset. Dessutom kommer källkoden för detta spel att vara allmänt tillgänglig, vilket gör att andra utvecklare kan använda färdiga idéer och kod redan i sina VR-attraktioner. Ta vårt ord för det, detta är en av de mest imponerande demonstrationerna av den virtuella verklighetens möjligheter.

Inklusive tack vare SMP- och VRWorks-teknologier ger användningen av GeForce GTX 1060 GPU i VR-applikationer prestanda som är ganska tillräcklig för den virtuella verkligheten på nybörjarnivå, och den aktuella GPU:n uppfyller den minsta nödvändiga hårdvarunivån, inklusive för SteamVR, och blir ett av de mest framgångsrika förvärven för användning i system med officiellt VR-stöd.

Eftersom GeForce GTX 1060-modellen är baserad på GP106-chippet, som inte på något sätt är sämre än GP104-grafikprocessorn, som blev grunden för äldre modifieringar, stöder den absolut alla tekniker som beskrivs ovan.

GeForce GTX 1060 är den tredje modellen i Nvidias nya linje av grafikprocessorer baserade på Pascal-familjen. Den nya 16nm FinFET-processteknologin och arkitekturoptimeringarna har gjort det möjligt för alla nya grafikkort att uppnå höga klockhastigheter och placera fler funktionella block i GPU:n i form av streamprocessorer, texturmoduler och annat, jämfört med tidigare generations videochips. Det är därför GTX 1060 har blivit den mest lönsamma och energieffektiva lösningen i sin klass och i allmänhet.

Det är särskilt viktigt att GeForce GTX 1060 erbjuder tillräckligt hög prestanda och stöd för nya funktioner och algoritmer till ett mycket lägre pris jämfört med äldre lösningar baserade på GP104. GP106-grafikkretsen som används i den nya modellen ger klassens bästa prestanda och energieffektivitet. GeForce GTX 1060 är specialdesignad och perfekt lämpad för alla moderna spel med höga och maximala grafikinställningar med en upplösning på 1920x1080 och även med helskärmskantutjämning aktiverad med olika metoder (FXAA, MFAA eller MSAA).

Och för den som vill ha ännu mer prestanda med ultrahögupplösta skärmar har Nvidia förstklassiga GeForce GTX 1070 och GTX 1080 grafikkort som också är ganska bra när det gäller prestanda och energieffektivitet. Och ändå, kombinationen av lågt pris och tillräcklig prestanda skiljer GeForce GTX 1060 ganska gynnsamt från bakgrunden av äldre lösningar. Jämfört med konkurrerande Radeon RX 480 är Nvidias lösning något snabbare med mindre komplexitet och GPU-fotavtryck, och har betydligt bättre energieffektivitet. Det är sant att det säljs lite dyrare, så varje grafikkort har sin egen nisch.

Vi går vidare till en annan funktion i GeForce GTX 1080 som gjorde den till den första i sitt slag - stöd för GDDR5X-minne. I denna egenskap kommer GTX 1080 att vara den enda produkten på marknaden under en tid, eftersom det redan är känt att GeForce GTX 1070 kommer att vara utrustad med standard GDDR5-chips. I kombination med nya färgkomprimeringsalgoritmer (mer om det senare), kommer hög minnesbandbredd att göra det möjligt för GP104 att mer effektivt hantera de tillgängliga datorresurserna än vad produkter baserade på GM104 och GM200-chip har råd med.

JEDEC släppte de slutliga specifikationerna för den nya standarden först i januari i år, och den enda tillverkaren av GDDR5X för tillfället är Micron. 3DNews hade inte en separat artikel om denna teknik, så vi kommer kortfattat att beskriva innovationerna som GDDR5X kommer med i denna recension.

GDDR5X-protokollet har mycket gemensamt med GDDR5 (även om båda chipsen skiljer sig åt elektriskt och fysiskt) – till skillnad från HBM-minne, som är en fundamentalt annorlunda typ, vilket gör samexistens med GDDR5 (X)-gränssnittet i en GPU praktiskt taget omöjlig. Av denna anledning kallas GDDR5X så, och inte till exempel GDDR6.

En av de viktigaste skillnaderna mellan GDDR5X och GDDR5 är förmågan att överföra fyra bitar data per signalcykel (QDR - Quad Data Rate) i motsats till två bitar (DDR - Double Data Rate), vilket var fallet i alla tidigare modifieringar av DDR SDRAM-minne. De fysiska frekvenserna för minneskärnorna och dataöverföringsgränssnittet ligger ungefär i samma intervall som GDDR5-chipsen.

Och för att mätta chipsens ökade bandbredd med data använder GDDR5X en dataförhämtning ökad från 8n till 16n. Med ett 32-bitars gränssnitt för ett separat chip betyder detta att styrenheten inte väljer 32 utan 64 byte data i en minnesåtkomstcykel. Som ett resultat når den resulterande gränssnittsbandbredden 10-14 Gb/s per stift vid en CK-frekvens (kommandoklocka) på 1250-1750 MHz - detta är frekvensen som verktyg för övervakning och överklockning av grafikkort, som GPU-Z, show. Åtminstone för nu ingår sådana siffror i standarden, men i framtiden planerar Micron att nå nummer upp till 16 Gb/s.

Nästa fördel med GDDR5X är den ökade chipvolymen - från 8 till 16 Gb. GeForce GTX 1080 kommer med åtta 8Gb-chips, men i framtiden kommer grafikkortstillverkarna att kunna fördubbla mängden RAM-minne när fler rymliga chips blir tillgängliga. Liksom GDDR5 tillåter GDDR5X användning av två chips på en 32-bitars kontroller i det så kallade clamshell-läget, vilket gör det möjligt att adressera 32 GB minne på en 256-bitars GP104-buss. Dessutom beskriver GDDR5X-standarden, förutom lika krafter på två, chipvolymer på 6 och 12 Gb, vilket gör att du kan variera den totala mängden inbyggt minne för grafikkort mer "fraktionellt" - till exempel utrusta ett kort med en 384-bitars RAM-buss med chips för totalt 9 GB.

Tvärtemot förväntningarna som följde med den första informationen om GDDR5X, som dök upp i det offentliga området, är strömförbrukningen för den nya typen av minne jämförbar med den för GDDR5 eller bara något högre än den senare. För att kompensera för den ökade effekten vid höga bandbredder minskade skaparna av standarden matningsspänningen för kärnorna från 1,5 V, standard för GDDR5, till 1,35 V. Dessutom introducerar standarden chipfrekvenskontroll som en obligatorisk åtgärd beroende på temperatursensor. Det är fortfarande okänt hur mycket nytt minne som verkligen beror på värmeavledningskvaliteten, men det är möjligt att vi nu oftare kommer att se kylsystem på grafikkort som inte bara tjänar GPU:er utan även RAM-chips, medan tillverkare av GDDR5-baserade kort för det mesta ignorerar denna möjlighet.

Man kan få intrycket att övergången från GDDR5 till GDDR5X var en enkel uppgift för NVIDIA på grund av dessa teknologiers släktskap. Dessutom är GeForce GTX 1080 utrustad med den lägsta minnesbandbredden definierad av standarden - 10 Gb/s per stift. Den praktiska implementeringen av det nya gränssnittet är dock förknippat med ett antal tekniska svårigheter. Att överföra data vid så höga frekvenser krävde noggrann design av databussentopologin på kortet för att minimera störningar och dämpning av signalen i ledarna.

Den resulterande 256-bitars bussbandbredden i GeForce GTX 1080 är 320 GB/s, vilket inte är betydligt mindre än hastigheten på 336 GB/s, vilket kännetecknas av GeForce GTX 980 Ti (TITAN X) med dess 384-bitars GDDR5-buss med 7 Gb/s per stift .

Nu kan PolyMorph Engine skapa upp till 16 projektioner (viewports) samtidigt, placerade godtyckligt och fokuserade på en eller två punkter, förskjutna längs den horisontella axeln i förhållande till varandra. Dessa omvandlingar görs helt och hållet i hårdvaran och orsakar ingen prestandaförsämring i sig.

Denna teknik har två ganska förutsägbara tillämpningar. Den första är VR-hjälmar. På grund av de två projektionscentrumen kan Pascal skapa en stereobild i ett pass (dock handlar det bara om geometri – GPU:n måste fortfarande göra dubbelt så mycket arbete för att rastrera texturerna i två ramar).

Dessutom tillåter SMP på geometrinivå att kompensera för förvrängningen av bilden, som introduceras av hjälmens linser. För detta bildas bilden för varje öga av fyra separata projektioner, som sedan limmas in i ett plan med hjälp av ett efterbehandlingsfilter. Således uppnås inte bara den slutliga bildens geometriska noggrannhet, utan också behovet av att bearbeta 1/3 av pixlarna, som annars fortfarande skulle gå förlorade under den slutliga korrigeringen av den platta standardprojektionen för linsernas krökning, är utslagen.

Den enda optimeringen för VR som Maxwell hade var att de perifera områdena av bilden, som komprimeras mest för utmatning genom linserna, kunde renderas med en lägre upplösning, vilket resulterade i en bandbreddsbesparing på endast 10-15%.

Nästa område där SMP-funktionen är efterfrågad är i flerskärmskonfigurationer. Utan SMP är bilden på flera dockade skärmar ett plan ur GPU:ns synvinkel och ser geometriskt korrekt ut förutsatt att skärmarna framför betraktaren är uppradade, men dockning i vinkel ser inte längre korrekt ut - som om du böjde helt enkelt ett stort foto på flera ställen. För att inte nämna att tittaren i alla fall ser exakt en platt bild, och inte ett fönster in i den virtuella världen: om du vänder huvudet mot sidoskärmen kommer objekten i den att förbli utsträckta, eftersom den virtuella kameran fortfarande tittar vid den centrala punkten.

Med hjälp av SMP kan grafikkortsdrivrutinen få information om den fysiska platsen för flera skärmar för att projicera en bild för var och en av dem genom sin egen visningsport, vilket i slutändan funktionellt för flerbildskärmsenheten närmare en fullfjädrad "fönster".

Kort sagt, syftet med trippelbuffring är att skilja processen att rendera nya ramar i GPU-pipelinen från att skanna bilden från rambufferten genom att låta grafikkortet skapa nya ramar i en godtyckligt hög hastighet, skriva dem till två roterande ramar buffertar. I det här fallet kopieras innehållet i den senaste bildrutan med en frekvens som är en multipel av skärmens uppdateringsfrekvens till den tredje bufferten, varifrån monitorn kan ta upp den utan bildavbrott. Ramen som träffar skärmen vid den tidpunkt då skanningen startar innehåller alltså alltid den senaste informationen som GPU producerat.

Trippelbuffring är mest användbar på monitorer med en uppdateringsfrekvens på 50-60Hz. Vid frekvenser på 120-144 Hz, som vi redan skrev i artikeln om G-Sync, ökar redan i princip latensen obetydligt om du slår på vertikal synkronisering, men Fast Sync tar bort den till ett minimum.

Om du undrar hur Fast Sync står sig i jämförelse med G-Sync (och AMD:s motsvarighet Free Sync – men det är en rent teoretisk fråga då NVIDIA bara stöder sin egen variant), så minskar G-Sync latensen när GPU:n inte hinner producera en ny bildruta när skanningen startar, och Fast Sync, tvärtom, minskar latensen när bildrutornas uppdateringsfrekvens i renderingspipelinen är högre än skärmens uppdateringsfrekvens. Dessutom kan dessa tekniker fungera tillsammans.

GeForce GTX 1080 Founder's Edition:design

Detta pompösa namn är nu referensversionen av GeForce GTX 1080. Från och med GeForce GTX 690 har NVIDIA ägnat stor uppmärksamhet åt i vilken form deras nya produkter kommer ut på marknaden. Referensexemplar av moderna grafikkort under varumärket GeForce är långt ifrån deras obeskrivliga föregångare, utrustade med relativt ineffektiva och bullriga kylsystem.

GeForce GTX 1080 Founder's Edition innehåller de bästa designegenskaperna hos Kepler- och Maxwell-grafikkort: ett turbinhölje i aluminium, ett kylare pumphjul tillverkat av ett lågbrusmaterial och en massiv aluminiumram som ger strukturen styvhet och tar bort värme från RAM-chips.


Som en del av GTX 1080 finns det två komponenter samtidigt som med jämna mellanrum dyker upp och försvinner från NVIDIAs referensgrafikkort - en GPU-kylfläns med en ångkammare och en bakplatta. Den senare är delvis demonterad utan skruvmejsel för att ge luftflöde till kylaren på det intilliggande grafikkortet i SLI-läge.

Utöver dess representativa funktion behövs ett referensexempel av ett grafikkort så att slutkortstillverkare kan köpa det - i det här fallet från NVIDIA - och tillfredsställa efterfrågan tills enheter med originaldesign på samma GPU är klara. Men den här gången planerar NVIDIA att behålla referensversionen till försäljning under hela modellens livslängd och distribuera bland annat via sin officiella hemsida. Detta motiverar det $100 högre priset på GTX 1080 FE jämfört med de rekommenderade $599 för alla andra. När allt kommer omkring ser eller känns Founder's Edition inte som en billig produkt.

Samtidigt har grafikkortet referensfrekvenser, under vilka som vanligt ingen tillverkare av kort med originaldesign kommer att falla. Något urval av GPU:er för GTX 1080 FE är det heller inte tal om vad gäller överklockningspotential. Därför, i hela massan av GeForce GTX 1080-implementeringar, kan det finnas dyrare sådana. Men ett tag kommer Founder's Edition att vara den dominerande och till och med den enda versionen av flaggskeppet Pascal, som automatiskt höjer sina återförsäljningspriser med $100 över NVIDIAs "rekommendation".

GeForce GTX 1080 Ti har 11 GB GDDR5X-minne, en 1583MHz GPU (överklockningsbar till 2000MHz med lagerkylning), 11GHz QDR-minne och 35 % bättre prestanda än GeForce GTX 1080. Och det är till ett reducerat pris på $699.

Det nya grafikkortet förskjuter GeForce GTX 1080 från positionen för flaggskeppet i GeForce-linjen och blir den snabbaste grafikkort som finns idag, samt det kraftfullaste kortet på Pascal-arkitekturen.

Det mest kraftfulla NVIDIA GeForce GTX 1080 Ti-spelkortet

NVIDIA GeForce GTX 1080 Ti är gamers dröm, som äntligen kan njuta av de senaste AAA-spelen, spela i högupplösta virtual reality-hjälmar, njuta av grafikens klarhet och noggrannhet.

GTX 1080 Ti designades för att vara det första fullständiga grafikkortet för 4K-spel. Den är utrustad med den senaste och mest tekniskt avancerade hårdvaran som inget annat grafikkort kan skryta med idag.

Här officiell presentation NVIDIA GeForce GTX 1080 Ti

”Det är dags för något nytt. Den som är 35 % snabbare än GTX 1080. Den som är snabbare än Titan X. Låt oss kalla den den ultimata...

År för år har videospel blivit vackrare och vackrare, så vi introducerar en nästa generations toppprodukt så att du kan njuta av nästa generations spel."

Jen-Xun

Specifikationer NVIDIA GeForce GTX 1080 Ti

NVIDIA har inte slängt på stoppningen för sitt nya och superkraftiga grafikkort.

Den är utrustad med samma GPU Pascal GP102 GPU, liksom Titan X (P), men överträffar den senare i alla avseenden.

Processorn är utrustad med 12 miljarder transistorer och har sex kluster för grafikbehandling, varav två är blockerade. Detta ger en total 28 flertrådiga processorer 128 kärnor vardera.

Således har GeForce GTX 1080 Ti grafikkortet 3584 CUDA-kärnor, 224 texturmappningsenheter och 88 ROPs (enheter som ansvarar för z-buffring, kantutjämning, skrivning av den slutliga bilden till videominnets rambuffert).

Överklockningsintervallet börjar från 1582 MHz till 2 GHz. Pascal-arkitekturen skapades främst för överklockning i referensen och mer extrem överklockning i icke-standardiserade modeller.

GeForce GTX 1080 Ti har också 11 GB GDDR5X-minne, som arbetar genom en 352-bitars buss. Flaggskeppet har också den snabbaste G5X-lösningen hittills.

Med det nya komprimeringssystemet och kakelcachen kan bandbredden på GTX 1080 Ti-grafikkortet ökas upp till 1200Gb/s, vilket är överlägset AMD:s HBM2-teknik.

Specifikation NVIDIA GeForce GTX 1080 Ti:

Egenskaper GTX TItan X Pascal GTX 1080 Ti GTX 1080
Processteknik 16 nm 16nm 16 nm
transistorer 12 miljarder 12 miljarder 7,2 miljarder
Kristallområde 471 mm² 471 mm² 314 mm²
Minne 12 GB GDDR5X 11 GB GDDR5X 8GB GDDR5X
Minneshastighet 10 Gb/s 11 Gb/s 11 Gb/s
Minnesgränssnitt 384-bitars 352-bitars 256-bitars
Bandbredd 480 GB/s 484 GB/s 320 GB/s
CUDA kärnor 3584 3584 2560
basfrekvens 1417 1607
Accelerationsfrekvens 1530 MHz 1583 MHz 1730 MHz
Beräkningskraft 11 teraflops 11,5 teraflops 9 teraflops
Värmekraft 250W 250W 180W
Pris 1200$ 699 USD 499$

Kylning NVIDIA GeForce GTX 1080 Ti

GeForce GTX 1080 Ti Founders har en ny luftflödeslösning som möjliggör bättre kylning av kortet och är också tystare än tidigare design. Allt detta gör det möjligt att överklocka grafikkortet mer och uppnå ännu högre hastighet. Dessutom förbättras kylningseffektiviteten med 7-fas strömförsörjning på 14 högeffektiva dualFET-transistorer.

GeForce GTX 1080 Ti kommer med den senaste NVTTM-designen, som introducerar en ny Vapor Cooling Chamber som har dubbelt så stor kylarea som Titan X (P). Denna nya termiska design hjälper till att uppnå optimal kylning och accelererar ditt grafikkorts GPU över specifikationen med GPU Boost 3.0-teknik.

NVIDIA GeForce GTX 1080 Ti är en överklockares dröm

Så vad gör vi med denna imponerande grafikkortskraft? Svaret är uppenbart – överklocka till det yttersta. Under evenemanget demonstrerade NVIDIA den enastående överklockningspotentialen hos deras GTX 1080 Ti grafikkort. Kom ihåg att de lyckades uppnå en processorfrekvens på 2,03 GHz vid blockerade 60 FPS.



Vad mer att läsa