AI時(shí)代,不那么甜的中高端甜點(diǎn)卡:NVIDIA RTX 4070Ti
RTX4070ti自發(fā)布之日起便飽受關(guān)注,或者說(shuō)飽受爭(zhēng)議:
●?一方面它的提升實(shí)實(shí)在在,性能可與上代旗艦3090ti掰手腕而功耗明顯更低

●?一方面它的定價(jià)提升同樣實(shí)在,堪稱是有史以來(lái)最貴的70ti顯卡

包括我在內(nèi)的很多人懷揣著對(duì)RTX4070Ti便宜大碗的美好期待,艱難的挺過(guò)了一輪又一輪的礦潮,在RTX4080 12GB發(fā)布的那一刻,大家無(wú)疑是很失望的。
那么問(wèn)題出在哪呢?
朋友們,時(shí)代變了。
在過(guò)去幾年里發(fā)生的不只是礦潮和疫情,消費(fèi)、科研和生產(chǎn)領(lǐng)域也在發(fā)生著巨大變化:
●?媒體:短視頻和直播興起,流媒體傳播成為重要的信息傳遞方式
●?AI:基于多層神經(jīng)網(wǎng)絡(luò)模型的深度學(xué)習(xí)興起且有大量商業(yè)應(yīng)用落地
●?科研:計(jì)算技術(shù)與大量學(xué)科交叉,機(jī)器學(xué)習(xí)廣泛應(yīng)用
有著成熟CUDA生態(tài)加持的NVIDIA游戲顯卡,它的角色不再只是娛樂(lè)工具,它有了更多的生產(chǎn)力屬性,換句話說(shuō),它能用來(lái)干活和賺錢(qián)!
●?內(nèi)容創(chuàng)作者使用顯卡對(duì)高規(guī)格視頻剪輯和特效渲染進(jìn)行加速,使用深度學(xué)習(xí)技術(shù)進(jìn)行內(nèi)容二次創(chuàng)作和生成
●?科研工作者使用顯卡加速科學(xué)計(jì)算和機(jī)器學(xué)習(xí)算法
●?工業(yè)中基于視覺(jué)識(shí)別的技術(shù)和設(shè)備大量運(yùn)用
這些變化直接體現(xiàn)在了Nvidia的財(cái)報(bào)中,據(jù)公開(kāi)數(shù)據(jù)顯示,NVIDIA在2023財(cái)年公司營(yíng)收269.74億美元,其中游戲業(yè)務(wù)占比僅33%,數(shù)據(jù)中心業(yè)務(wù)占比56%。需要注意的是,很多小工作室、課題組和個(gè)人用戶雖然采購(gòu)Geforce游戲顯卡但其實(shí)并不主要用于游戲。
這一變化也體現(xiàn)在Intel和AMD顯卡價(jià)格上,有著ROCM框架支撐的AMD顯卡同性能明顯比之Intel顯卡來(lái)的貴一些,而又比有著CUDA生態(tài)支撐的Nvidia顯卡便宜些。
在吐槽之余我們必須要承認(rèn)的是,在接下來(lái)的很長(zhǎng)一段時(shí)間里,顯卡的定價(jià)邏輯和以前不一樣了。前些年的中高端顯卡價(jià)格差距遠(yuǎn)大于性能差距,而今年及之后的一段時(shí)間里,價(jià)格和性能將近乎是線性關(guān)系。
冷靜下來(lái)看,RTX4070Ti其實(shí)還不錯(cuò)
RTX4070Ti這張卡本身沒(méi)什么毛病,性能、能效比之前代大幅提升,實(shí)際表現(xiàn)可以和3090Ti掰掰手腕,全新4070Ti價(jià)格和3090礦卡相近,比3090ti還便宜不少。

它既可以滿足絕大多數(shù)人的娛樂(lè)需求,也可以為專業(yè)人士提供不錯(cuò)的生產(chǎn)力支撐。作為一個(gè)理科在讀研究生和數(shù)碼博主,我打算和大家聊聊RTX4070ti,特別是其在生產(chǎn)力應(yīng)用和科研中的表現(xiàn)。我的測(cè)試結(jié)果和使用體驗(yàn)基于這一塊技嘉魔鷹 RTX4070Ti Gaming OC顯卡

它采用三風(fēng)扇+7熱管設(shè)計(jì),采用均熱板和復(fù)合式熱管,具有造型強(qiáng)化金屬背板、RGB幻彩光輪,外觀漂亮,質(zhì)感做工出色



供電接口位于中間部位,而且采用內(nèi)收設(shè)計(jì),有效避免線材彎折


原廠配送顯卡支架,外觀和諧而且可以提供很好的支撐,圖中是固定螺絲接口

接口面板占用雙PCIE槽,整張顯卡占用空間約2.5槽位,裝進(jìn)我的MATX主機(jī)后不遮擋第二個(gè)PCIE x16插槽


技嘉魔鷹RTX 4070Ti顯卡的品牌logo和散熱風(fēng)扇有RGB燈,流光溢彩很是漂亮


游戲性能出色
RTX4070Ti的游戲性能與上代旗艦3090Ti相當(dāng),考慮DLSS3的加持的話,在很多游戲中可以獲得更加流暢的游戲體驗(yàn)。
在基準(zhǔn)測(cè)試中,3DMark Timespy圖形分22089,F(xiàn)irestrike圖形分51493。依據(jù)notebookcheck,RTX3090Ti的得分分別為21645和53110,兩者可以說(shuō)是五五開(kāi)。

與RTX30系顯卡不同的是,RTX4070Ti支持DLSS3技術(shù),這使其應(yīng)對(duì)大型游戲更為從容,官方宣稱在多款游戲中相比RTX3090Ti提升顯著

有人說(shuō)RTX4070Ti的顯存位寬和容量不足以暢玩4K游戲,我自己在4k屏上實(shí)測(cè)這塊顯卡運(yùn)行賽博朋克2077,不開(kāi)啟DLSS、將特效開(kāi)到【超級(jí)】時(shí)的平均幀為75.1,最低幀為64.83,最高為101.18。

在開(kāi)啟DLSS時(shí),預(yù)設(shè)方案調(diào)整為【光線追蹤:超級(jí)】依然可以實(shí)現(xiàn)62.71的平均幀,最低幀也有51.67,最高幀有77.67,足夠暢玩了。

基于NVIDIA Ada Lovelace架構(gòu)的RTX4070TI具有第四代Tensor Core,從而支持DLSS3,可以利用AI創(chuàng)造更多高質(zhì)量幀。
體現(xiàn)在游戲中,它可以在賽博朋克2077內(nèi)開(kāi)啟DLSS 所特有的【幀生成】技術(shù),可以進(jìn)一步提升畫(huà)面流暢度,開(kāi)啟后即便是在【光線追蹤:超級(jí)】預(yù)設(shè)下,依然可以實(shí)現(xiàn)86.31的平均幀,最低幀也可高達(dá)74.82,相比未開(kāi)啟【幀生成】時(shí)平均幀提升高達(dá)37.6%,最低幀提升高達(dá)44.8%,DLSS3比之DLSS2乃至未開(kāi)啟DLSS時(shí)的加速效果著實(shí)顯著!
由此測(cè)試來(lái)看,DLSS3加持下的RTX4070Ti基本足夠喂飽4k60顯示器了。

值得一提的是,RTX4070Ti的功耗很低,TDP只有285W,NVIDIA官方宣稱其游戲平均功耗僅226W,搭配7800x3d或i5-13600KF的話650W的電源就已足夠,利好itx小主機(jī)玩家。
科學(xué)計(jì)算可堪一用
RTX4070Ti的一個(gè)優(yōu)點(diǎn)是其算力強(qiáng)勁,官方宣稱其算力可達(dá)40.09TFLOPS,比之3090Ti的40TFLOPS還略高一點(diǎn),非公版顯卡的算力還可以更強(qiáng)一點(diǎn)。
在Aida64 GPGPU測(cè)試中,技嘉魔鷹RTX4070Ti 單精度FP32算力為42056GFLOPS,,作為對(duì)比,上代次旗艦RTX3080僅29212GFLOPS,RTX4070Ti比之強(qiáng)出近44%;消費(fèi)級(jí)頂級(jí)處理器R9-7950x的算力僅為2677GFLOPS,RTX4070Ti比之強(qiáng)出近15倍;12代酷睿中堅(jiān)12700KF僅1437GFLOPS,RTX4070Ti比之強(qiáng)出近29倍。

巨大的算力差距意味著在使用RTX4070Ti GPU進(jìn)行計(jì)算時(shí)相比CPU有著巨大的速度優(yōu)勢(shì),在matlab R2022a中,對(duì)隨機(jī)生成的10,000維矩陣進(jìn)行矩陣乘時(shí),RTX 4070Ti相比R9-7950x快出近4,339倍!

AI應(yīng)用和研究入門(mén)佳選
有著成熟CUDA生態(tài)的N卡是AI領(lǐng)域絕對(duì)的大哥,與科學(xué)計(jì)算不同的是,AI領(lǐng)域?qū)﹄p精度運(yùn)算需求不大,而對(duì)單精度以及更低精度的運(yùn)算有所需求,巧的是老黃刀法在Geforce上主要是雙精度算力,對(duì)單精度沒(méi)有下刀,因此很多人選購(gòu)Geforce系列的顯卡跑AI模型。
AI應(yīng)用
RTX4070Ti的顯存雖然只有12GB,但也足以運(yùn)行包括GPT,GPT-2在內(nèi)的大多數(shù)AI模型。畢竟模型體積爆炸主要是近幾年的事,而且自Transformer后,模型基礎(chǔ)架構(gòu)其實(shí)沒(méi)太多變化。

基于GPT-3.5和GPT-4的chatgpt是近期的AI現(xiàn)象級(jí)應(yīng)用,它在自然語(yǔ)言、圖片識(shí)別相關(guān)的諸多領(lǐng)域達(dá)成了超越人類的表現(xiàn),基于它的New Bing已經(jīng)是我科研日常中不可或缺的一環(huán)。
但是公共大語(yǔ)言模型(LLMs)有其缺點(diǎn),本地部署一個(gè)也是一時(shí)髦選擇。在一眾大模型不斷取得新的成就時(shí),如何將其輕量化成了一個(gè)熱門(mén)話題。近期,阿卜杜拉國(guó)王科技大學(xué)的Vision-CAIR課題組推出了miniGPT-4,demo的顯存消耗可以低至12GB。

用Stable diffusion畫(huà)圖也是一件很有趣的事,精細(xì)調(diào)整prompt后的圖很漂亮(很多人甚至用它來(lái)畫(huà)人),抽象風(fēng)格的圖則頗為有趣。我使用diffusers 包來(lái)進(jìn)行本地繪圖,顯存占用約8GB。

生成一張512*512尺寸畢加索風(fēng)格的小松鼠圖片只需要6秒。

更為具體的行業(yè)應(yīng)用對(duì)于模型規(guī)模的要求可以更低,上個(gè)世紀(jì)的LeNet即可很好的實(shí)現(xiàn)手寫(xiě)數(shù)字的識(shí)別,
AI研究
用于科研Idea驗(yàn)證時(shí)RTX4070ti是一個(gè)很好的選擇:算力不錯(cuò)、價(jià)格門(mén)檻不高。如前文所述,RTX4070Ti與7950X相比進(jìn)行矩陣乘法運(yùn)算時(shí)加速可高達(dá)四千余倍,在進(jìn)行高效數(shù)據(jù)科學(xué)算法開(kāi)發(fā)和idea驗(yàn)證時(shí),稍微一等就可看到結(jié)果,科研體驗(yàn)極佳。
進(jìn)行AI以及與AI相關(guān)學(xué)科的研究時(shí),有著成熟CUDA生態(tài)支撐的RTX4070Ti也是頗具性價(jià)比的選擇。華盛頓大學(xué)在讀博士Tim Dettmers繪制了16bit訓(xùn)練、16bit推理和8bit推理相對(duì)價(jià)格的相對(duì)表現(xiàn),可見(jiàn)RTX4080高居榜首,隨后便是RTX4090和RTX 4070Ti,再考慮電費(fèi)的話RTX4070Ti的性價(jià)比更為突出。

Tim Dettmers認(rèn)為,如果一個(gè)人不折騰Transformer以及基于它的大預(yù)言模型,RTX4070Ti用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型也基本夠用了。

對(duì)于學(xué)生而言,4070Ti比之4080和4090更為合適一些:學(xué)習(xí)Deep Learning和Reinforcement Learning的話足夠用了。我入門(mén)Deep Learning時(shí)間的參考書(shū)是李沐的《動(dòng)手學(xué)深度學(xué)習(xí)》,從MLP到CNN、RNN再到small Transformer,RTX4070Ti均可以勝任。

有的朋友會(huì)講12GB顯存還是小了點(diǎn),跑不動(dòng)很多領(lǐng)域的SOTA模型,但是面臨這一問(wèn)題應(yīng)該想的其實(shí)不是顯卡顯存多大,而是沒(méi)有豐富的數(shù)據(jù)和算力資源為什么要選擇對(duì)此有需求的研究或應(yīng)用方向。舉個(gè)例子,探索網(wǎng)絡(luò)結(jié)構(gòu)需要在龐大的模型空間中進(jìn)行搜索,頂會(huì)上層出不窮的此類文章耗費(fèi)巨量的計(jì)算資源,幾百塊顯卡運(yùn)行幾十天才能跑的出不錯(cuò)的網(wǎng)絡(luò)架構(gòu)。

SOTA級(jí)別的模型意味著海量的運(yùn)算資源耗費(fèi),通用人工智能和大模型可以說(shuō)是當(dāng)前的國(guó)民熱點(diǎn),但是普通人、普通團(tuán)隊(duì)和院校根本無(wú)力從頭搭建一個(gè)屬于自己的大模型,從基礎(chǔ)的Bert-Base,到GPT,再到GPT-4,運(yùn)算成本越來(lái)越高,高質(zhì)量語(yǔ)料的需求也越來(lái)越高,有志于此的朋友應(yīng)該考慮加入業(yè)界公司而不是待在普通學(xué)校的課題組,更不應(yīng)該考慮自己或小團(tuán)隊(duì)做一個(gè)出來(lái)。

我們需要清醒的認(rèn)識(shí)到,學(xué)術(shù)界和工業(yè)界在AI領(lǐng)域分道揚(yáng)鑣、漸行漸遠(yuǎn)。AI相關(guān)領(lǐng)域有著大量的普通人、單張消費(fèi)級(jí)顯卡便能玩轉(zhuǎn)的問(wèn)題,比如:
●?強(qiáng)化學(xué)習(xí):頂會(huì)的文章也不乏使用簡(jiǎn)單模型的優(yōu)秀作品。
●?模型解釋性:折騰MLP或CNN的解釋性,只需要基礎(chǔ)模型和少量數(shù)據(jù)。
●?細(xì)分領(lǐng)域+AI:相對(duì)小的模型和數(shù)據(jù),我之前聽(tīng)過(guò)某年輕杰青的報(bào)告,轉(zhuǎn)化復(fù)雜問(wèn)題為自己專業(yè)框架內(nèi)的問(wèn)題而后以新模型進(jìn)行分析和解答。
●?模型壓縮和加速:考慮16bit乃至8bit量化、剪枝和蒸餾,比如colossal-AI的工作,使用CPU+GPU的異構(gòu)內(nèi)存,相比Stable Diffusion減少50%以上的顯存占用。

Colossal-AI也對(duì)GPT-2和PaLM進(jìn)行了加速,在小顯存的顯卡上也可以進(jìn)行訓(xùn)練。


如果一定要追熱點(diǎn)搞大模型刷榜,應(yīng)該考慮的其實(shí)不是自己應(yīng)該買(mǎi)個(gè)什么卡,而是應(yīng)該說(shuō)服老板(導(dǎo)師)買(mǎi)云服務(wù)器算力資源或申請(qǐng)(購(gòu)買(mǎi))運(yùn)算集群。AI研究是個(gè)很大的領(lǐng)域,資源多有資源多的玩法,少有少的玩法,適合自己的才是最好的。
生產(chǎn)力應(yīng)用效能出色
很多朋友買(mǎi)顯卡是用來(lái)進(jìn)行視頻剪輯加速、渲染以及泛內(nèi)容創(chuàng)作,有著成熟軟件生態(tài)支撐的RTX4070Ti 表現(xiàn)出色。誠(chéng)然,RTX 4070Ti并不像RTX 4090那么強(qiáng),但也足以應(yīng)對(duì)絕大多數(shù)人的內(nèi)容創(chuàng)作需求。
視頻編輯
視頻編輯是當(dāng)前內(nèi)容創(chuàng)作向電腦搭建的常見(jiàn)需求,很多朋友通過(guò)視頻內(nèi)容創(chuàng)作來(lái)獲得副業(yè)乃至主要收入、擴(kuò)大自身的影響力。高規(guī)格的視頻編輯對(duì)性能有著較高的要求,往往需要通過(guò)顯卡進(jìn)行加速,NVIDIA RTX4070Ti具有兩個(gè)第 8 代 NVIDIA 編碼器 (NVENC) ,支持 AV1 編碼,不論是視頻編輯還是直播,都能夠以更高的分辨率展現(xiàn)驚艷的直播效果。
我使用Blackmagicdesign公司出品的Blackmagic RAW Speed Test軟件對(duì)其進(jìn)行了測(cè)試,測(cè)試結(jié)果表明,即便是8k BRAW視頻其依然可以實(shí)現(xiàn)高達(dá)218幀的編輯能力,足以應(yīng)對(duì)絕大多數(shù)業(yè)余視頻編輯和個(gè)人up主/小工作室的視頻編輯需求。

渲染
渲染是典型的重性能生產(chǎn)力工作,一塊高性能顯卡無(wú)疑可以極大提升渲染效率。我手上這塊技嘉魔鷹RTX 4070Ti在V-Ray官方出品的Benchmark測(cè)試軟件中,GPU RTX成績(jī)?yōu)?105,GPU CUDA成績(jī)?yōu)?317。

作為對(duì)比,RTX3080 10GB的GPU RTX得分僅2302,GPU CUDA得分僅1723,RTX 4070Ti比RTX 3080 10GB強(qiáng)出約35%。

重度辦公
強(qiáng)勁的GPU用于重度辦公也會(huì)帶來(lái)體驗(yàn)的顯著提升,動(dòng)畫(huà)特效、影像編輯等工作將更為順手。在PCMARK10 現(xiàn)代辦公場(chǎng)景中,安裝技嘉魔鷹RTX 4070Ti后的主機(jī)得分高達(dá)9862,相比核顯時(shí)提升近2500分!在Productivity和Digital Content Creation中得分顯著提升。

RTX 4070Ti的低功耗、高能效帶來(lái)了很好的散熱體驗(yàn),這塊三風(fēng)扇設(shè)計(jì)的技嘉魔鷹 RTX4070ti顯卡在我的20L小機(jī)箱內(nèi)滿載僅224W,風(fēng)扇僅2100多轉(zhuǎn),噪音遠(yuǎn)低于CPU散熱風(fēng)扇噪音,平時(shí)低負(fù)載時(shí)技嘉魔鷹RTX 4070Ti還會(huì)關(guān)閉風(fēng)扇以進(jìn)一步降低噪音。

總結(jié):不那么甜,但也甜
RTX4070ti作為新一代中高端顯卡,在現(xiàn)在這個(gè)AI變現(xiàn)普及的時(shí)代頗有可為,學(xué)生黨完全可以基于它搭建主力機(jī)用于游戲娛樂(lè)、科研idea驗(yàn)證,它也完全可以應(yīng)對(duì)小工作室和新人up主進(jìn)行內(nèi)容創(chuàng)作時(shí)對(duì)顯卡的需求。
綜合來(lái)看,RTX 4070Ti 依然是一款甜點(diǎn)卡,雖然它不像幾年前的前輩們那么甜:
●?用于游戲時(shí),它足以在運(yùn)行賽博朋克2077這種游戲巨制時(shí)喂飽4k@60Hz顯示器,192bit位寬和12GB的顯存并不是不能玩4k。
●?有CUDA生產(chǎn)力需求的話,RTX4070ti在相近價(jià)位并沒(méi)有什么競(jìng)品,礦卡實(shí)無(wú)必要,運(yùn)算卡的算力又低的可憐;AMD顯卡的ROCM框架限制很多而且不很成熟,Intel的技能點(diǎn)還沒(méi)加在這上面??陀^的說(shuō),RTX4070Ti是一個(gè)比選購(gòu)3090Ti礦卡以及大顯存計(jì)算卡更為靠譜的選擇。
一段時(shí)間使用下來(lái),我手上這塊技嘉魔鷹RTX4070Ti的體驗(yàn)還挺不錯(cuò),安靜、漂亮、價(jià)格不高、性能出色,它可以很好的完成日常的神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)、科研idea驗(yàn)證、游戲娛樂(lè)工作,是一塊很均衡的顯卡。