RTX 2080Ti/2080顯卡游民首測:4K平均60幀
記得上一代GeForce 10的Pascal架構(gòu)首發(fā),也就是GTX 1080顯卡發(fā)布,還是2016年的五月份,NVIDIA的游戲顯卡換代從來沒有哪次像這樣讓人等得望眼欲穿。一代顯卡的正式服役周期通常是一年半,早在一年前坊間就不斷爆出新顯卡發(fā)布的時間,結(jié)果都是"狼來了"。于是各種猜測甚囂塵上:"老黃在憋大招","A卡不給力",現(xiàn)在這些都不重要了,在全世界的玩家苦等了一年之后,狼真的來了。

8月21日的科隆游戲展上,NVIDIA正式曝光了新一代游戲顯卡的旗艦與準(zhǔn)旗艦型號,真相讓所有人都瞠目結(jié)舌,因為之前關(guān)于新顯卡的一切猜測幾乎都是錯的,連型號名稱也是如此。
現(xiàn)在我們已經(jīng)知道了,新旗艦叫做GeForce RTX 2080Ti,次旗艦為GeForce RTX 2080,而不是之前確信的GTX 1180,架構(gòu)也不是之前認為板上釘釘?shù)腣olta,而是Turing。NVIDIA不但將系列名稱直接升到GeForce 20,連自上古時代一直傳承下來的游戲?qū)偾熬YGTX也舍棄了,取而代之的叫RTX。不過,筆者相信當(dāng)你仔細了解完這款全新的架構(gòu)之后,就絲毫不再感到驚奇了,因為與架構(gòu)本身相比,這點兒名稱上的變化實在是微不足道。

首先來說一下RTX的由來,R和T分別是光線追蹤Ray Tracing的兩個首字母,而X沒猜錯的話應(yīng)該是代表Express。組合起來就是"高速光線追蹤"意思,喻意從這一代開始NVIDIA顯卡最重要的架構(gòu)、功能革新。
由于Turing架構(gòu)所涉及的新技術(shù)較多,這方面的描述對于圖形計算基礎(chǔ)知識薄弱的玩家閱讀起來會十分晦澀,所以筆者將盡可能地深入淺出,挑選對玩家日后游戲體驗影響重大的變革加以詳細描述。 覺得這部分枯燥的玩家可直接跳轉(zhuǎn)到游戲測試部分。
現(xiàn)在,讓我們開始這次Turing之旅吧。
圖靈的來龍去脈
Turing架構(gòu)其實并不是完全陌生的,去年NVIDIA發(fā)布了TITAN V時就預(yù)示了它的存在,只是這次NVIDIA換了一種方式來構(gòu)建游戲產(chǎn)品線。
按照以往習(xí)慣,幾乎每一代旗艦游戲顯卡都脫胎于該架構(gòu)的首款TITAN,所以當(dāng)去年Volta架構(gòu)的TITAN V如約而至?xí)r,我們每個人都認為已經(jīng)看到了未來的下一代80Ti游戲旗艦的長相。
實際上TITAN V與初代基于Kepler的GeForce GTX TITAN已經(jīng)相去甚遠,初代TITAN的定位是一款萬能顯卡,既可作為游戲發(fā)燒友的旗艦游戲顯卡,也為專業(yè)消費者提供全雙精度浮點(FP64)計算能力。在TITAN V誕生之前,TITAN產(chǎn)品線幾乎都是基于這種設(shè)計方法,一顆巨大的GPU核心是NVIDIA"高大全"設(shè)計思路的最好代表。
而在Titan V上,NVIDIA再次擴展了大核心的上限。Volta最引人注目的則是其全新的專用處理模塊——Tensor Core(張量計算核心),它與Volta的其他微架構(gòu)改進,以及支持深度學(xué)習(xí)和HPC(高性能計算)的軟件/框架集成在一起,形成有史以來最大的815mm2核心,使得該系列產(chǎn)品比任何時候都更接近工作站級。

簡單算一算就知道,TITAN V的GV100核心擁有5120個流處理器,與TITAN XP的GP102核心(3840個)相比增加了三分之一,但核心面積卻增加了73%,再上工藝提升到了TSMC的16nmFFET提升到了12nmFFN,增加的晶體管比例更大??梢娫贕V100上增加了許多流處理器之外的新功能單元,還有一部分計算功能被分配給了專用單元以提高效率。
但是追求高大全也是有代價的,較低的良率和高昂的成本,使在GV100上發(fā)展游戲消費級顯卡會得不償失,AMD的Fury就是一個典型的反例,所以今天RTX 2080Ti采用的Turing架構(gòu)是由GV100為藍本發(fā)展而來的消費級專屬型號。

與針對超算市場的GV100不同,RTX 2080Ti的Turing—TU102核心面積縮減到了754mm2,晶體管為186億,改用封裝容易的GDDR6顯存,并具有一些新的屬性。比如首當(dāng)其沖的光線追蹤—Ray Tracing算力,使它更適合用于運行游戲,計算卡與游戲卡或許從此走向兩個分支。筆者將在下文中詳細介紹關(guān)于Turing架構(gòu)的重要技術(shù)升級。
新顯卡的核心規(guī)格
首先來看這次新發(fā)布的兩款顯卡規(guī)格,我們已經(jīng)知道了作為旗艦的RTX 2080Ti采用TU-102核心,就像上一代游戲旗艦采用GP102一樣,準(zhǔn)旗艦RTX 2080則使用規(guī)模小一圈的TU-104核心,它們都由TSMC的12nmFFN工藝制造。

TU102也由6個GPC構(gòu)成,相比GV100每個GPC少了一組TPC,一共有36組TPC,72組SM,流處理器總數(shù)為4608個,ROPs總數(shù)為96個,紋理單元288個。以上都是傳統(tǒng)的參數(shù)項目,不過Turing架構(gòu)還加入了可以半精度計算與深度學(xué)習(xí)的張量計算核心Tensor Core以及專用于光線追蹤的RT Core,此后顯卡的主要核心功能單元項目又多了兩個。其中Tensor Core為每個SM含8個,共576個,而RT core則每個SM含一個,與SM數(shù)量一致。
此外TU-102每個SM還有2個雙精度單元,共144個(有觀點稱雙精度計算也是由CUDA完成,只是寄存器的使用邏輯不同)。雙精度算力為單精度的1/32,但這無關(guān)緊要,除了科學(xué)計算以外,無論是游戲用的GeForce RTX 2080Ti還是專業(yè)繪圖用的Quadro RTX 6000/8000,都對此項性能沒有要求。
說道Quadro,這里就必須強調(diào)一點,目前只有Quadro RTX 6000/8000才搭載了完整的TU-102核心,GeForce RTX2080Ti就像它的上代一樣,進行了一定的削減,共減少了4個SM,流處理器總數(shù)為4352個,SM中包含或?qū)?yīng)的其它單元也相應(yīng)減少,顯存位寬由384bit削減至352bit。讓人有一點點失落,卻也無可厚非,畢竟消費級顯卡是要控制成本和保證產(chǎn)量的,這或許預(yù)示著不久的將來NVIDIA有可能推出比RTX 2080Ti更高階的旗艦?

與TU-102一起發(fā)布的是TU-104核心,對應(yīng)顯卡為RTX 2080。前者擁有TU-102中所有新特性,包括RT Core、Tensor Core,以及對SM所做的架構(gòu)改變。

完整的TU-104同樣有6個GPC,每個GPC包含4個TPC,全核一共有48個SM,3072個流處理器。Tensor Core與RT Core的配比都沒變,很容易推算出分別為384個和48個。

這里要潑大家一盆冷水了,RTX 2080沒有像GTX 1080那樣擁有一顆完整的“104”準(zhǔn)旗艦核心,也是削減了2組SM,流處理器數(shù)量為2944個,顯存位寬依然是256bit,完整的TU-104只用在Quadro RTX 5000專業(yè)卡上??紤]到TU-104的核心面積也達到了545mm2,不排除是為了加強成品率,但不管怎么說,104這個檔位上得不到完整核心在心理上還需要時間去適應(yīng)。
全新的流處理器簇單元(SM)
Turing架構(gòu)采用了新的SM設(shè)計,該設(shè)計結(jié)合了早在去年Volta架構(gòu)中就引入的許多特性。每個TPC包含兩個SM,每個SM總共有64個FP32內(nèi)核和64個INT32內(nèi)核。相比之下,帕斯卡架構(gòu)中每個TPC只有一個SM,每個SM 128個FP32內(nèi)核,TPC的概念被架空了。TuringSM支持FP32和INT32操作的并行執(zhí)行,獨立線程調(diào)度類似于Volta GV100 GPU。
SM被劃分為四個處理塊,每個處理塊具有16個FP32核、16個INT32核、兩個張量核、一個調(diào)度器和一個調(diào)度單元。每個塊包括一個新的L0指令緩存和一個64KB寄存器文件。四個處理塊共享組合的96KB L1數(shù)據(jù)高速緩存/共享存儲器。傳統(tǒng)的圖形工作負載將96KB L1共享緩存劃分為64KB的專用圖形著色器緩存以及32KB的紋理緩存和寄存器溢出區(qū)域。計算工作負載可以將96KB分成32KB共享緩存+64KB L1緩存,或者64KB共享緩存+32KB L1緩存。
Turing實現(xiàn)了核心執(zhí)行數(shù)據(jù)通道的主要更新。現(xiàn)代著色器工作負載通常具有諸如FADD或FMAD之類的FP算術(shù)指令與諸如用于尋址和獲取數(shù)據(jù)的整數(shù)加法、用于處理結(jié)果的浮點比較或min/max等更簡單的指令的混合。每當(dāng)這些非FP數(shù)學(xué)指令中的一個運行時,ATAPACH就會閑置。Turing在每個CUDA核旁邊添加第二個并行執(zhí)行單元,該CUDA核與浮點數(shù)學(xué)并行執(zhí)行這些指令。

上圖為整數(shù)管道與浮點指令的混合變化,但是一些現(xiàn)代應(yīng)用程序中,通常會看到每100個浮點指令大約有36個額外的整數(shù)管道指令。將這些指令移到一個單獨的管道上,就可以實現(xiàn)浮點的有效36%的額外吞吐量。
Turing SM中浮點和整數(shù)指令的并行計算
Turing的SM還引入了一種新的統(tǒng)一架構(gòu),用于共享內(nèi)存、L1和紋理緩存。這種統(tǒng)一的設(shè)計允許L1高速緩存充分利用資源。與Pascal相比,每TPC增加2倍的命中帶寬,并且允許在共享內(nèi)存分配沒有使用所有共享內(nèi)存容量時重新配置L1高速緩存以增大命中帶寬。Turing L1的大小可以高達64KB,與每個SM共享內(nèi)存分配的32KB相結(jié)合,或者它可以減少到32KB,允許將64KB的分配用于共享內(nèi)存,Turing的L2緩存容量也有所增加。

Turing SM新的L1數(shù)據(jù)緩存和共享內(nèi)存子系統(tǒng)可顯著提高性能,同時簡化編程并減少達到或接近峰值應(yīng)用程序性能所需的調(diào)優(yōu)。將L1數(shù)據(jù)緩存與共享內(nèi)存結(jié)合可以減少延遲,并提供比先前在Pascal 中使用的L1緩存實現(xiàn)更高的帶寬。
根據(jù)官方資料,Turing架構(gòu)SM設(shè)計的改變使得每個CUDA核心的綜合性能比之前Pascal提升了50%。
深度學(xué)習(xí)單元Tensor Cores
我們都知道Volta GV100中首次引入的張量核心Tensor Core,Turing架構(gòu)中的張量核心是前者的增強版本。它設(shè)計增加了INT8和INT4精確模式來測算可接受的工作負載,F(xiàn)P16也完全支持這種工作負載的精確測算。
在基于Turing的GeForce游戲核心中引入張量內(nèi)核首次將實時深度學(xué)習(xí)引入游戲應(yīng)用程序。Turing張量核心加速了NVIDIA NGX神經(jīng)服務(wù)的基于AI的特性,增強了圖形、渲染和其他類型的客戶端應(yīng)用程序的效率。NGX AI特性的示例包括深度學(xué)習(xí)超級采樣(DLSS)、AI繪畫、AI Super Rez和AI Slow-Mo。
Turing張量核加速了神經(jīng)網(wǎng)絡(luò)訓(xùn)練和推理函數(shù)的核心矩陣乘法。Turing張量核特別擅長于推理計算,其中有用的相關(guān)信息可以通過基于給定輸入的訓(xùn)練有素的深層神經(jīng)網(wǎng)絡(luò)(DNN)來推斷和傳遞。推理的例子包括識別Facebook照片中朋友的圖像,識別和分類自駕車中不同類型的汽車、行人和道路危險,實時翻譯人類語言,以及在線零售中創(chuàng)建個性化的用戶建議,以及社交媒體系統(tǒng)。
TU102包含576個張量核心,每個張量核心可以執(zhí)行多達64個浮點熔點乘加(FMA)操作,每個時鐘周期使用FP16輸入。SM中的八個張量核每個時鐘周期總共執(zhí)行512次FP16相乘和相加操作,或者執(zhí)行1024次總FP操作。新的INT8精度模式以雙倍的速率運行,每個時鐘周期可達到2048次整數(shù)運算。

Turing張量核為矩陣運算提供了顯著的加速,并且除了新的神經(jīng)圖形函數(shù)之外,還用于深度學(xué)習(xí)訓(xùn)練和推理運算。
首次應(yīng)用GDDR6顯存
顯存子系統(tǒng)性能對應(yīng)用加速至關(guān)重要。Turing改進主顯存、緩存和壓縮架構(gòu),以增加顯存帶寬并減少訪問延遲。改進和增強的GPU計算特性有助于加速游戲和許多計算密集型應(yīng)用程序和算法。新的顯示和視頻編碼/解碼特性支持更高分辨率和能夠HDR的顯示器、更先進的VR顯示器、在數(shù)據(jù)中心中增加視頻流需求、8K視頻制作和其他視頻相關(guān)應(yīng)用。
GDDR6內(nèi)存子系統(tǒng)
隨著顯示分辨率的不斷增加,著色器功能和渲染技術(shù)變得更加復(fù)雜,顯存帶寬和容量大小在GPU性能中起到了更大的作用。為了保持盡可能高的幀速率和計算速度,GPU不僅需要更多的內(nèi)存帶寬,還需要大容量的內(nèi)存來維持連續(xù)計算性能。
NVIDIA與存儲產(chǎn)業(yè)緊密合作,兩年前開發(fā)出世界上第一個GDDR5X顯存的GPU:GP-104,緊接著又第一個開發(fā)出使用HBM2顯存的GV-100?,F(xiàn)在Turing再次成為首個使用GDDR6顯卡的架構(gòu)。
GDDR6是高帶寬顯存設(shè)計的最新成果。通過許多高速SerDes和RF技術(shù)的增強,Turing中的GDDR6顯存接口電路已經(jīng)完全重新設(shè)計,以實現(xiàn)速度、功率效率和噪聲降低。這種新的接口設(shè)計帶來了許多新的電路和信號訓(xùn)練改進,最大限度地減少由于工藝、溫度和電源電壓引起的噪聲和變化。使用廣泛的時鐘門控來最小化低利用率期間的功耗,從而顯著地提高了整體功率效率。Turing的GDDR6內(nèi)存子系統(tǒng)目前可實現(xiàn)14Gbps的速率,相對使用GDDR5X顯存的Pascal架構(gòu)還有20%的功耗改善。
實現(xiàn)這種速度增長需要端到端的優(yōu)化,為了滿足更高的速度要求,NVIDIA特別設(shè)計了Turing的封裝和布線,將信號串?dāng)_減少40%——這是大存儲系統(tǒng)中最嚴(yán)重的不穩(wěn)定因素之一。

為了實現(xiàn)14Gbps的速度,存儲器子系統(tǒng)的每個方面也都經(jīng)過精心設(shè)計,以滿足這種高頻操作所需的苛刻標(biāo)準(zhǔn)。設(shè)計中的每一個信號都被仔細地優(yōu)化以盡可能建立最干凈的顯存控制器連接。
除了新的GDDR6內(nèi)存子系統(tǒng)之外,Trime還添加了更大更快的L2緩存。TU-102附帶6MB的L2高速緩存,是前一代GP-102 3MB的L2高速緩存的兩倍。TU102還擁有比GP-102更高的L2高速緩存帶寬。
VirtualLink與NVLink
在今天的PC上使用VR設(shè)備需要在頭盔和系統(tǒng)之間連接多個電線;從顯卡向頭盔中的兩個顯示器發(fā)送圖像數(shù)據(jù)的顯示電纜;為頭盔供電的電纜;以及傳輸位置傳感器數(shù)據(jù)的USB連接。電纜的數(shù)量對于終端用戶來說是很不舒服的,這會限制了他們在戴著頭盔時四處走動的能力。
為了解決這個問題,NVIDIA將其中一個視訊輸出端口設(shè)計為USB-C并得到SudialLink的硬件支持,叫做VirtualLink。VirtualLink能將VR頭盔的供電、顯示和回傳數(shù)據(jù)整合到一個USB-C連接上。
Turing 引入的 USB-C 輸出可以支持 HBR3 四信道 DP 支持或者 HBR3 雙信道 DP+ 雙信道 SuperSpeed USB3 支持。
而 VirtualLink 則跟進一步,在提供 HBR3 四信道 DP 的同時還支持 SuperSpeed USB 3 用于傳輸反饋控制信號。
USB-C 和 VirtualLink 都能為頭盔供電,其中 USB-C 提供了 100 瓦的可選供電支持,而 VirtualLink 則是強制 5 瓦、可選 27瓦。
如果頭盔的耗電在 27 瓦內(nèi),使用一根 VirtualLink 就能滿足包括供電、顯示、控制反饋,比目前的三根線要簡單多了,而它的接口同樣是 USB-C。
目前 VirtualLink 獲得了 NVIDIA、AMD、微軟、Oculus、Valve 的支持,但是 VR 頭盔的重要廠商 HTC 并不在列。
NVLink使SLI得到升級
SLI是NVIDIA在2004年的時推出的多卡并行渲染技術(shù),它可以讓不同的顯卡一起渲染畫面并合并輸出,實現(xiàn)性能的提升。早期的 SLI 根據(jù)產(chǎn)品定位的不同,分為需要和不需要使用橋連接器兩種,使用橋連接可以繞過 PCIE 總線實現(xiàn)更快的畫面合成。
但是現(xiàn)在 NVIDIA 已經(jīng)把 SLI 定義為高端發(fā)燒級應(yīng)用,像GeForce GTX 1060這樣的中端顯卡已經(jīng)不再支持 SLI,若GTX 1060非要實現(xiàn)多卡并行的話,需要游戲使用顯式MGPU代碼才能實現(xiàn)。
所以,像Pascal或者說GeForce 10這一代顯卡,只有GP104、GP102提供了SLI支持,它們都擁有SLI橋端口用于多卡并聯(lián)。
GeForce 10使用的SLI橋接器叫做SLIHB,HB即高帶寬的意思,其帶寬是像素時鐘頻率0.65GHz乘3 字節(jié)(RGB各一個字節(jié)),合計約1.95GB/s 帶寬。1.95GB/s(15.6Gbps)的帶寬可以滿足4K 60Hz(12.54Gbps)輸出使用,但是遇到更高分辨率例如8K或者4K高刷新率的時候就會捉襟見肘。

TU-102和TU-104使用NVLink,而不是SLI GPU的MIO和PCIE接口到GPU數(shù)據(jù)傳輸。TU-102 GPU擁有兩個x8第二代NVLink鏈路,TU104則擁有一個x8第二代NVLink鏈路。每個鏈路在兩個GPU(50 Gb/s雙向帶寬)之間提供每方向25Gb/s峰值帶寬。TU-102中的兩個鏈路在每個方向上提供50Gb/s,或者雙向100Gb/s。但凡具有NVLink的Turing GPU都支持雙路SLI,但不支持3路和4路SLI。
不過就跟Pacal一樣,Turing這一代也只有旗艦的102與準(zhǔn)旗艦的104芯片支持NVLink,也就是說使用TU-106芯片的RTX 2070將無緣NVLink接口。關(guān)于RTX 2070的情況待到不久之后顯卡上市時再為大家解析。

與以前的SLI橋相比,新NVLink橋的帶寬增加使得以前做不到的高端顯示器應(yīng)用成為可能。

NVIDIA原廠橋接器價格不菲,零售價70美元以上,專用于搭配公版RTX 2080Ti、2080的使用,裝上去天衣無縫,不考慮顏值的話,應(yīng)該還有廉價的軟橋或硬橋可供選擇。
什么是光線追蹤,什么又是實時光線追蹤?
自上世紀(jì)90年代以來,傳統(tǒng)的3D渲染一直使用一種叫做光柵化的過程。整個過程簡單地描述就是光柵引擎根據(jù)頂點渲染生成的三角形以人眼所接收到的二維畫面來創(chuàng)建需要渲染的圖像,接著將紋理數(shù)據(jù)按坐標(biāo)鋪入該圖像中的三角形,得到完整的畫面數(shù)據(jù),再由ROPs將完整的畫面數(shù)據(jù)填充到屏幕所看到的像素。
光柵化技術(shù)多年來一直是實時渲染的常規(guī)技術(shù),尤其是在游戲中。雖然今天許多光柵化場景看起來已經(jīng)足夠好了,可是基于光柵化的渲染局限性依然無法避免。例如,僅使用光柵化呈現(xiàn)反射和陰影需要對需多不同視角進行假設(shè)和分析。常見的情況是靜態(tài)光圖可能看起來是正確的,若某些東西移動,光柵化的陰影經(jīng)常出現(xiàn)混淆和光泄漏,亦或者畫面上任何物體的反射只能反射出屏幕上可見的物體。這些現(xiàn)象都有損于游戲體驗的真實性,而且開發(fā)人員在光柵化的基礎(chǔ)上重新編程修復(fù)這些BUG的代價很高。

光線追蹤技術(shù)長期以來被用于非實時繪制,它通過模擬光的物理行為來提供逼真的光照。光線追蹤通過跟蹤光從觀看者的眼睛穿過虛擬3D場景時將采取的路徑來計算像素的顏色。當(dāng)它穿越場景時,光可以從一個物體反射到另一個物體(引起反射),被物體阻擋(引起陰影),或者穿過透明或半透明物體(引起折射)。所有這些相互作用被組合以產(chǎn)生然后在屏幕上顯示的像素的最終顏色。

這一種計算工作十分繁重的渲染技術(shù),它真實地模擬場景及其對象的光照。能夠?qū)崟r地渲染物理上正確的反射、折射、陰影和間接照明。相比傳統(tǒng)的光柵化渲染,光線追蹤技術(shù)創(chuàng)造的景象更符合人眼和大腦接受的視覺邏輯,視神經(jīng)原本就是靠自然界的可見光反射來識別圖像的。因為效果出眾,這項技術(shù)早就被應(yīng)用在了圖像渲染中,但非實時渲染,而是制作CG、電影。
所以光線追蹤與實時光線追蹤是兩個概念,制作CG時我們有一整天的時間去渲染一幀畫面,但是在游戲中一幀畫面只能耗時幾十分之一秒,否則就會影響流暢度。在過去,GPU的算力遠不足以使用單個核心對游戲進行實時光線追蹤,使這項耳熟能詳?shù)募夹g(shù)一直無法應(yīng)用在游戲中。需要30~90fps才能暢爽體驗的游戲多年來一直依賴于快速的光柵化渲染,只能放棄電影般的逼真畫面。

直到NVIDIA Turing架構(gòu)問世,使通向游戲渲染技術(shù)殿堂的那條路頭一次變得清晰起來。
圖靈如何實現(xiàn)光線追蹤
NVIDIA在Turing架構(gòu)的每個SM中新增RT Core是邁向?qū)崟r光線追蹤的關(guān)鍵,硬件加速是實現(xiàn)這一目標(biāo)的唯一途徑。

為了更好地理解RT核的功能,以及它們究竟加速了什么,筆者首先解釋如何在沒有專用硬件光線追蹤引擎的情況下用GPU或CPU執(zhí)行光線追蹤?;旧希珺VH遍歷的過程需要通過著色器操作來執(zhí)行,并且每光線投射數(shù)以千計的指令槽來針對BVH中的邊界框交點進行測試,直到最終命中三角形,并且交點處的顏色將被用于最終像素填充?;蛘呷绻麤]有三角形被擊中,背景顏色可以用來填充這個像素,這樣就做到了模擬現(xiàn)實世界中人眼的視覺原理——你只能看到反射光的物體。
沒有硬件加速的光線跟蹤要求每條射線有數(shù)千個軟件指令槽來測試BVH結(jié)構(gòu)中的連續(xù)較小的邊框,直到可能碰到一個三角形。這是一個海量計算的過程,使得在沒有基于硬件的光線跟蹤加速度的情況下,無法在GPU上進行實時處理,速度奇慢無比。
Turing的RT內(nèi)核可以處理所有的BVH遍歷和射線-三角形相交測試,節(jié)省了SM在每條射線上花費數(shù)千個指令槽,這對于整個場景來說可能是無法承受的巨量指令。RT核心內(nèi)有兩個專用單元,第一個單元進行邊框回歸測試,第二個單元進行射線三角形相交測試。SM只需要啟動一個光線探測器,RT核進行BVH遍歷和射線三角形測試,并向SM返回命中或不命中,SM本身即可被充分釋放來做其它圖形計算工作。

因此RT核的Turing光線跟蹤性能比上一代Pascal依靠軟程序?qū)崿F(xiàn)的快得多。Turing可以在不同的工作負載下提供比Pascal更多的千兆射線/秒,比如Pascal大約花費1.1千兆射線/秒,或者10TFLOPS/千兆射線在軟件中進行光線跟蹤,而Turing可以使用RT Cores進行10+千兆射線/秒,并且運行速度要快10倍。
盡管光線跟蹤比光柵化可以產(chǎn)生更逼真的圖像,但它也是負荷很高的運算,目前單靠RT Core依然無法用完全的實時光線追蹤來流暢運行游戲,最好的方法是混合渲染,用光線跟蹤和光柵化組合。使用這種方法,將光柵化用在需要效率的地方,而光線跟蹤用在比光柵化更多能增加逼真度的視覺增益區(qū)域,如反射、折射和陰影。
深度學(xué)習(xí)抗鋸齒(DLSS)
在現(xiàn)代游戲中,渲染幀不直接顯示,而是經(jīng)過后處理圖像增強步驟,結(jié)合來自多個渲染幀的輸入,試圖去除視覺偽像,例如混疊,同時保持細節(jié)。例如,時間抗鋸齒(TAA)是一種基于著色器的算法,該算法使用運動矢量結(jié)合兩幀來確定在何處采樣先前幀,這是當(dāng)今使用的最常見的圖像增強算法之一。然而,這種圖像增強處理從根本上來說是非常困難的。
諸如此類的圖像分析和優(yōu)化問題沒有沒有干脆利落的算法解決方案,唯有應(yīng)用人工智能。正如圖像處理案例,是深度學(xué)習(xí)的最大成功應(yīng)用之一。現(xiàn)在,深度學(xué)習(xí)已經(jīng)實現(xiàn)了超人的能力,能夠通過觀察圖像中的原始像素來識別狗、貓、鳥等。在這種情況下,目標(biāo)是結(jié)合渲染的圖像,基于查看原始像素,以產(chǎn)生高質(zhì)量的結(jié)果,不同的對象,但由近似的步驟完成。
為解決這一挑戰(zhàn)而開發(fā)的深度神經(jīng)網(wǎng)絡(luò)(DNN)被稱為深度學(xué)習(xí)超級采樣(DLSS)。DLSS從給定的一組輸入樣本中產(chǎn)生比TAA高得多的質(zhì)量輸出,并可以利用此能力來提高總體性能。盡管TAA在最終目標(biāo)分辨率下進行渲染,減去細節(jié),組合成每一幀,DLSS允許在較少的輸入樣本計數(shù)下進行更快的渲染,然后推斷出在目標(biāo)分辨率下與TAA相似的結(jié)果,僅需一半的著色工作。

以上為虛幻4引擎的《滲透者》DEMO測試,DLSS提供了與TAA相似的圖像質(zhì)量,性能大大提高。RTX 2080 Ti本身的強大渲染性能,加上Tensor Core進行DLSS操作帶來的性能提升,使4K分辨率下RTX 2080 Ti達到GTX 1080 Ti性能的2倍。
這個結(jié)果的關(guān)鍵在于DLSS的學(xué)習(xí)過程,DLSS有機會學(xué)習(xí)如何基于大量超高質(zhì)量的采樣產(chǎn)生應(yīng)有的畫面輸出。64x超級采樣意味不是對每個像素進行一次著色,而是在像素內(nèi)以64個不同的偏移進行著色,然后組合輸出,產(chǎn)生具有理想細節(jié)和抗鋸齒質(zhì)量的結(jié)果圖像。接下來,DLSS還可以學(xué)習(xí)來匹配64xSS輸出幀,通過遍歷每個輸入,要求DLSS產(chǎn)生一個輸出,測量其輸出和64xSS目標(biāo)之間的差異,并根據(jù)這些差異調(diào)整網(wǎng)絡(luò)中的權(quán)重。在多次重復(fù)之后,DLSS自己學(xué)習(xí)以產(chǎn)生接近64xSS質(zhì)量的結(jié)果,同時學(xué)習(xí)避免影響經(jīng)典抗鋸齒(如TAA)的模糊、去遮擋和透明性的問題。

除了以上描述的標(biāo)準(zhǔn)DLSS模式,還有第二種模式,稱為DLSS 2x。在這種情況下,DLSS輸入以最終的目標(biāo)分辨率呈現(xiàn),然后由較大的DLSS網(wǎng)絡(luò)組合以產(chǎn)生接近64x超級抗鋸齒的輸出圖像,這果不可能通過任何傳統(tǒng)手段實現(xiàn)的。

以上測試場景中展示了最具說服力的對比效果。游戲中半透明的全系屏幕漂浮在不斷移動的背景前面。TAA傾向于盲目跟隨運動對象的運動矢量,導(dǎo)致屏幕上的細節(jié)也被模糊了。DLSS則能夠識別場景中更加復(fù)雜的變化,并以更智能的方式組合輸入,避免了模糊問題。
RTX 2080Ti/2080開發(fā)者版本解析(一)
RTX 2080Ti與2080的長什么樣子相信大家都不陌生了,從NVIDIA官方公布消息開始就有若干官圖出現(xiàn)在各大媒體上。但官圖畢竟燈光刁鉆,后期滿滿,細節(jié)看不太清楚,下面就由筆者用三頁的篇幅獻出一套剛出爐實物圖供各位鑒賞。
由于RTX 2080Ti與2080外觀幾乎一模一樣,所以下面以展示RTX 2080Ti為主,在兩者不同的部分予以補充圖片說明。




以往離心式散熱器的封閉氣流通道可以直接將熱量排向出機箱外,盡可能降低顯卡對機箱散熱的要求,提高適用范圍。如今NVIDIA終于摒棄了這個過于苛求可靠性的思路,轉(zhuǎn)而借鑒了非公版的設(shè)計思路,也用起了雙軸流扇。確實,在機箱風(fēng)道得當(dāng)?shù)那疤嵯拢S流扇的散熱效能明顯超過尺寸受限的離心扇 ,更有利于Boost超頻的機制充分發(fā)揮。
或許正是因為如此,NVIDIA這次才在一個型號上推出了RD和FE兩種公版,前者為參考設(shè)計版,Reference Design也就是指原來的公版,而后者Founders Edition則擁有更高的頻率,變成了NVIDIA的官方超頻版。看來老黃是鐵了心要跟小伙伴們搶肉吃啦。
不過RD和FE版本之間僅僅是核心Boost頻率不同,基礎(chǔ)頻率是一樣的。其中RTX 2080Ti的RD版為1545MHz,F(xiàn)E版為1635MHz,高了將近100MHz,基礎(chǔ)頻率都是1350MHz,顯存都是GDDR6 14Gbps。
RTX 2080Ti/2080開發(fā)者版本解析(二)
公版的NVLink接口自帶一個與背板融為一體的裝飾蓋,平時起保護金手指的作用,在組雙路SLI時可以拿下來。





這里要說明的是,RTX 2080也分為RD和FE版,區(qū)別也只在于Boost頻率,前者為1710MHz,后者是1800MH,基礎(chǔ)頻率都是1515MHz,GDRR6顯存容量8GB,速率也是14Gbps。

其中DP1.4支持8K HDR @60Hz,HDMI則支持 4K HDR @60Hz,USB-C轉(zhuǎn)為整合VR設(shè)備而研發(fā),前面技術(shù)解析部分有詳細介紹。
RTX 2080Ti/2080開發(fā)者版本解析(三)
到了拆解環(huán)節(jié),這次的公版設(shè)計,背板螺絲非常小,跟米粒一樣,內(nèi)層的散熱器固定還要用到六角套筒,至少需要三種工具,更重要的是原廠安裝的導(dǎo)熱硅膠墊極易破碎,筆者拆開基本就碎了一半,幾乎是一次性的。所以除了那些有充分的經(jīng)驗、準(zhǔn)備以及動手能力的老鳥,筆者非常不建議用戶自行拆解公版,硅膠墊的缺失會讓顯存、MOSFET散熱受阻,極有可能造成硬件損壞。


核心規(guī)格差了許多,顯存位寬不同,兩款PCB的布局必然不同,但它們尺寸是相同。RTX 2080Ti安裝了11顆顯存,留出一個空焊位,這根GTX 1080Ti是一樣的。RTX 2080也與GTX 1080相同,都是8顆顯存。





根據(jù)常識來判斷,RTX 2080Ti采用了6+7相核心供電,左側(cè)6相,右側(cè)7相,還有三相為顯存供電。MOSFET采用的應(yīng)該是有自驅(qū)設(shè)計的DrMOS,能夠一定程度上緩解布線的擁擠。再經(jīng)過仔細觀察,似乎兩側(cè)的供電分別有各自獨立的PWM主控,可能引入了智能電源管理設(shè)計,根據(jù)GPU的功耗來變化功率IC的工作模式,減少發(fā)熱。
影馳RTX 2080 GAMER
影馳RTX 2080 GAMER采用了全新的外觀設(shè)計,專為高端電競玩家、MOD愛好者量身打造,最大亮點是全新Turing架構(gòu)TU104-400A核心、支持RTX光線追蹤、DLSS智能抗鋸齒、非公設(shè)計方案、極光幻影燈效、軟控調(diào)燈、一鍵OC、影馳GAMER全家桶燈效同步。






影馳RTX 2080Ti大將
影馳RTX 2080Ti 大將采用了全新的包裝與內(nèi)襯設(shè)計,定位主流市場,最大亮點是全新Turing架構(gòu)TU102-200核心、支持RTX光線追蹤、DLSS智能抗鋸齒以及區(qū)別于公版的三風(fēng)扇設(shè)計與鏤空金屬背板。
在顯卡外觀的設(shè)計上,影馳RTX 2080Ti大將區(qū)別于公版,采用6熱管三風(fēng)扇設(shè)計,散熱效能更強,頂測設(shè)有三段式RGB呼吸燈,未來配合影馳光效軟件可與其他影馳產(chǎn)品達成燈效同步,搭配鏤空設(shè)計的強化金屬背板,散熱性能再度提升,并有效保護PCB。





微星RTX 2080暗黑龍爵
微星新款暗黑龍爵系列顯卡在外觀設(shè)計方面采用銀黑配色,別致的流暢線條和鋒利外形,充滿時尚美感。顯卡背面裝備了表面拉絲處理的黑色強化金屬背板,銀色信仰龍標(biāo)分外引人矚目,顏值爆表。




微星RTX 2080Ti GAMING TRIO魔龍
微星新款GAMING TRIO魔龍系列顯卡采用黑色和鐵灰色混搭的時尚設(shè)計,配合流線造型和拉絲紋理金屬背板,更顯優(yōu)雅大氣。同時顯卡正面和側(cè)面都具備華麗的RGB燈效,通過微星Mystic Light軟件還能和其他RGB組件一起實現(xiàn)燈效同步,打造更具個性化的游戲氛圍。





非公版同步發(fā)售:索泰RTX 2080Ti X-GAMING-OC
X-GAMING-OC是索泰顯卡主打游戲市場的拳頭產(chǎn)品,它在同型號中通常價格適中,性能處于中位。緊隨GeForce 20系列顯卡發(fā)布,索泰第一時間推出這款型號的RTX 2080Ti旨在造福游戲玩家。熟悉索泰的玩家可能對至尊版印象頗深,而這款X-GAMING-OC實際上是在至尊版基礎(chǔ)上發(fā)展而來,用料,散熱都與至尊版十分接近。





非公版同步發(fā)售:技嘉RTX 2080Ti GAMING OC
各大NVIDIA合作伙伴都在第一時間推出游戲向的圖靈顯卡,技嘉也不例外。技嘉的GAMING OC是一直是顯卡市場上最炙手可熱的型號之一,它的精髓不在于奢侈地堆料或華麗的外觀,而是看似平白無奇卻又包含底蘊的設(shè)計細節(jié)。





非公版同步發(fā)售:iGAME RTX 2080Ti Advanced OC
脫胎于七彩虹的高端子品牌iGAME依然保留著最初"玩家定制"的精神,他們一直孜孜不倦地想玩家之所想,憂玩家之所憂,切身處地的體會玩家的體驗,因而在許多其它品牌不經(jīng)意間忽略的小細節(jié)上往往能一鳴驚人,出奇制勝。




非公版同步發(fā)售:耕升RTX 2080炫光
耕升現(xiàn)在是個低調(diào)又務(wù)實的品牌,它最近幾年設(shè)計了許多高性價比的產(chǎn)品,了解耕升歷史的人都知道這個品牌曾經(jīng)的輝煌,而如今顯卡行業(yè)列強林立,耕升確實不再像昔日那般鶴立雞群,但是他的產(chǎn)品卻從未掉隊。




測試平臺軟硬件配置介紹
所有該介紹的都介紹完了,終于要迎來最后的高能時刻,筆者已經(jīng)抑制不住內(nèi)心的激動,籠罩了一年的迷霧終于要撥云見日,廢話少說,立刻進入上機測試環(huán)節(jié)。
除了3DMARK基準(zhǔn)跑分之外,筆者還準(zhǔn)備了20款具有代表性的單機游戲大作來考驗Turing架構(gòu)的性能,并分別將RTX 2080Ti和2080與GTX 1080Ti和GTX 1080對位比較。游戲測試分辨率將涵蓋1920×1080、2560×1440以及3840×2160三種分辨率,游戲畫面設(shè)置為最高,抗鋸齒開啟。
我們知道GTX 1080Ti基本征服了2K分辨率,在1080P下已明顯呈現(xiàn)性能過剩,那么這次4K分辨率將成為更強大的RTX 2080Ti挑戰(zhàn)的焦點,也是本次首測游戲部分最大的看點。不過這里有個遺憾,就是硬件技術(shù)通常會領(lǐng)先軟件發(fā)布,盡管NVIDIA公布了25款游戲支持DLSS還有5、6款游戲同時支持DLSS和光線追蹤,但實際上是"將要支持",真到能用還有待游戲廠商更新補丁。
最后筆者按例還會進行功耗和散熱的測試。


這里需要說明的是,為了充分發(fā)揮顯卡性能,盡可能消除系統(tǒng)瓶頸,筆者將測試平臺的CPU i7 8700K全核超頻至4.8GHz,Ring頻率與主頻同步。
測試平臺軟硬件配置如下:


RTX 2080Ti 3DMARK跑分測試




相比GTX 1080Ti,RTX 2080Ti的跑分提高了25%到30%左右。
RTX 2080 3DMARK跑分測試




RTX 2080的跑分相比GTX 1080也提高了30%左右,與GTX 1080Ti的得分非常接近??磥懋?dāng)年GTX 1070逼平GTX 980Ti的輝煌是難以重現(xiàn)了,不過這次常規(guī)性能提升相對Turing的重大架構(gòu)革新,確實只占一小部分。
接下來讓我們看這兩款Turing顯卡在游戲中的表現(xiàn)如何
游戲測試匯總分析

1080P分辨率顯然已經(jīng)不屬于RTX 2080Ti的戰(zhàn)場,有將近三分之一的游戲RTX 2080Ti、RTX 2080和RTX 1080Ti差別不大,甚至個別幾個游戲四款顯卡的幀率都區(qū)域一致。RTX 2080總體上比1080Ti要強一點,極個別游戲會反轉(zhuǎn),也不排除是顯存規(guī)格的問題,前者的弱項主要在于此。這個分辨率下高端顯卡想有更多建樹,更依賴于CPU的提升,問題是測試平臺的CPU還是手動超了頻的,性能已經(jīng)是目前消費級產(chǎn)品中的佼佼者了。

2K分辨率下,顯卡負載加大,四款顯卡有擺脫焦灼的跡象,拉開了少許差距。RTX 2080與GTX 1080Ti依然在伯仲之間。同時我們還觀察到,RTX 2080Ti在大多數(shù)游戲中的幀率竟然跟1080P分辨率下差之毫厘嗎,可能真的只有4K分辨率才能滿足它的胃口了。

4K分辨率下四款顯卡的性能被徹底拉開,RTX 1080Ti至少在其中一半的游戲中幀率不低于60fps,其余游戲也在40~60fps之間,而且其中也以第三人稱RPG游戲居多,對于這類游戲而言,RTX 2080Ti的表現(xiàn)足夠給予玩家基本流暢的體驗。而且筆者在4K分辨率測試匯總是開了一定抗鋸齒的,日后當(dāng)DLSS技術(shù)在游戲中普及,同樣抗鋸齒下性能將進一步得到釋放。
關(guān)于GTX 1080Ti與RTX 2080,仍然不相上下,格局沒有明顯變化。
散熱與功耗測試
最后一項測試是散熱與功耗,進氣入手的玩家要仔細看了,你的電源、機箱是否合適。


滿載比待機提高了260W左右,當(dāng)然待機本身也有功耗,如果減去滿載時平臺其它硬件的耗電,加減平衡,差不多等于NVIDIA官方宣稱的TDP 260W。

對于一個754mm2的超巨核心來說,這個溫度表現(xiàn)令人驚喜,全新的雙風(fēng)扇散熱方案功不可沒,這已達到大多數(shù)高端非公版散熱的水準(zhǔn)。


RTX 2080滿載比待機也提升了250W左右,兩者的滿載功耗倒是相差不大。RTX 2080 FE的官方TDP是225W,減去滿載時平臺增加的耗電,在考慮到相對較小的核心待機時更為省電,所以和官方數(shù)據(jù)也八九不離十了。

Turing的公版散熱方案有很好的溫控能力,盡管發(fā)熱量比RTX 2080Ti小,滿載時風(fēng)扇的轉(zhuǎn)速比比RTX 2080Ti低一些,維持在相同的溫度區(qū)間,換取更好的靜音效果。
編輯點評
NVIDIA新一代Turing架構(gòu)的兩款新品,旗艦RTX 2080Ti與準(zhǔn)旗艦RTX 2080的首發(fā)測試到這里就全部告一段落了。從常規(guī)性能上來說,Turing相對上一代Pascal的提升算中規(guī)中矩,其中RTX 2080Ti基本滿足了心理預(yù)期,而RTX 2080稍微差點兒意思,當(dāng)然這跟它沒有用上完整的TU-104核心脫不開關(guān)系。
兩款顯卡與上一代對位產(chǎn)品相比,基本都達到了30%左右的提升,放眼NVIDIA顯卡發(fā)展史來看,也完全在合理范圍內(nèi),畢竟每一次升級的側(cè)重點不同,筆者在上文中也強調(diào)了,常規(guī)性能提升只是Turing利好的一部分,其主要價值在于整個架構(gòu)的開創(chuàng)性進步。
說到架構(gòu)進步,就不得不說一下其中最為核心的屬性光線追蹤,這項技術(shù)的應(yīng)用,意義絲毫不亞于G80首次支持DX10和GF100首次支持DX11,但同時跟后兩者一樣,第一代應(yīng)用新技術(shù)的硬件,在該技術(shù)上的性能總是不夠充沛的,這是必然規(guī)律,誰都難以跳出。所以這項技術(shù)的象征意義暫時大于實用意義也是難以避免的,或許這得等到NVIDIA第二代光線追蹤芯片誕生之后。
關(guān)于DLSS,就目前測試DEMO中的表現(xiàn)來看,這確實是一項解放性能的神技,用它在4K分辨率下開啟抗鋸齒將得到完美的精致畫面,且預(yù)計未來中低端顯卡也不用再一直忍受鋸齒的折磨,現(xiàn)在就待游戲的完善與支持。

RTX 2080Ti售價9500元左右,RTX 2080售價6500元左右。我們都知道,每次顯卡升級換代時,新一代顯卡能媲美上一代更高定位的產(chǎn)品是很常見的,為了不擋老卡的銷路,新卡通常都會在一段時間內(nèi)定一個比同性能老卡略高的價位,就像這次的RTX 2080。隨著老卡的停售,新卡也會逐漸回落到符合其身份的價格,但這次情況有些不妙,我們看到NVIDIA路線圖中RTX 2070將使用TU-106核心,這預(yù)示著NVIDIA的GPU將引來第二次定位抬升。第一次還是在Kepler時代,老黃面對毫無競爭力的A卡,愉快地將GK104核心用在了GTX 680上,原本只是一個甜品級的GPU就搖身一變成了準(zhǔn)旗艦,而后甜品自然也就不再甜蜜。
現(xiàn)在本人只希望GTX 1080Ti和1080兩位前朝元老隱退后,Turing新貴能回歸原本屬于它定位的價格,而不是在性能超越上代高階的同時,連它的售價一并超越,否則照這樣水漲船高下去,恐怕有一天X050也要賣到5000了。