手機(jī)站首頁(yè)散文詩(shī)歌雜文隨筆日記小小說(shuō)

散文網(wǎng) » 科技 »數(shù)碼 » AI時(shí)代，不那么甜的中高端甜點(diǎn)卡：NVIDIA RTX 4070Ti

AI時(shí)代，不那么甜的中高端甜點(diǎn)卡：NVIDIA RTX 4070Ti

2023-06-30 17:44 作者:Karl說(shuō)數(shù) 0人讀過(guò) | 我要投稿

RTX4070ti自發(fā)布之日起便飽受關(guān)注，或者說(shuō)飽受爭(zhēng)議：

●?一方面它的提升實(shí)實(shí)在在，性能可與上代旗艦3090ti掰手腕而功耗明顯更低

●?一方面它的定價(jià)提升同樣實(shí)在，堪稱是有史以來(lái)最貴的70ti顯卡

包括我在內(nèi)的很多人懷揣著對(duì)RTX4070Ti便宜大碗的美好期待，艱難的挺過(guò)了一輪又一輪的礦潮，在RTX4080 12GB發(fā)布的那一刻，大家無(wú)疑是很失望的。

那么問(wèn)題出在哪呢？

朋友們，時(shí)代變了。

在過(guò)去幾年里發(fā)生的不只是礦潮和疫情，消費(fèi)、科研和生產(chǎn)領(lǐng)域也在發(fā)生著巨大變化：

●?媒體：短視頻和直播興起，流媒體傳播成為重要的信息傳遞方式

●?AI：基于多層神經(jīng)網(wǎng)絡(luò)模型的深度學(xué)習(xí)興起且有大量商業(yè)應(yīng)用落地

●?科研：計(jì)算技術(shù)與大量學(xué)科交叉，機(jī)器學(xué)習(xí)廣泛應(yīng)用

有著成熟CUDA生態(tài)加持的NVIDIA游戲顯卡，它的角色不再只是娛樂(lè)工具，它有了更多的生產(chǎn)力屬性，換句話說(shuō)，它能用來(lái)干活和賺錢(qián)！

●?內(nèi)容創(chuàng)作者使用顯卡對(duì)高規(guī)格視頻剪輯和特效渲染進(jìn)行加速，使用深度學(xué)習(xí)技術(shù)進(jìn)行內(nèi)容二次創(chuàng)作和生成

●?科研工作者使用顯卡加速科學(xué)計(jì)算和機(jī)器學(xué)習(xí)算法

●?工業(yè)中基于視覺(jué)識(shí)別的技術(shù)和設(shè)備大量運(yùn)用

這些變化直接體現(xiàn)在了Nvidia的財(cái)報(bào)中，據(jù)公開(kāi)數(shù)據(jù)顯示，NVIDIA在2023財(cái)年公司營(yíng)收269.74億美元，其中游戲業(yè)務(wù)占比僅33%，數(shù)據(jù)中心業(yè)務(wù)占比56%。需要注意的是，很多小工作室、課題組和個(gè)人用戶雖然采購(gòu)Geforce游戲顯卡但其實(shí)并不主要用于游戲。

這一變化也體現(xiàn)在Intel和AMD顯卡價(jià)格上，有著ROCM框架支撐的AMD顯卡同性能明顯比之Intel顯卡來(lái)的貴一些，而又比有著CUDA生態(tài)支撐的Nvidia顯卡便宜些。

在吐槽之余我們必須要承認(rèn)的是，在接下來(lái)的很長(zhǎng)一段時(shí)間里，顯卡的定價(jià)邏輯和以前不一樣了。前些年的中高端顯卡價(jià)格差距遠(yuǎn)大于性能差距，而今年及之后的一段時(shí)間里，價(jià)格和性能將近乎是線性關(guān)系。

冷靜下來(lái)看，RTX4070Ti其實(shí)還不錯(cuò)

RTX4070Ti這張卡本身沒(méi)什么毛病，性能、能效比之前代大幅提升，實(shí)際表現(xiàn)可以和3090Ti掰掰手腕，全新4070Ti價(jià)格和3090礦卡相近，比3090ti還便宜不少。

它既可以滿足絕大多數(shù)人的娛樂(lè)需求，也可以為專業(yè)人士提供不錯(cuò)的生產(chǎn)力支撐。作為一個(gè)理科在讀研究生和數(shù)碼博主，我打算和大家聊聊RTX4070ti，特別是其在生產(chǎn)力應(yīng)用和科研中的表現(xiàn)。我的測(cè)試結(jié)果和使用體驗(yàn)基于這一塊技嘉魔鷹 RTX4070Ti Gaming OC顯卡

它采用三風(fēng)扇+7熱管設(shè)計(jì)，采用均熱板和復(fù)合式熱管，具有造型強(qiáng)化金屬背板、RGB幻彩光輪，外觀漂亮，質(zhì)感做工出色

供電接口位于中間部位，而且采用內(nèi)收設(shè)計(jì)，有效避免線材彎折

原廠配送顯卡支架，外觀和諧而且可以提供很好的支撐，圖中是固定螺絲接口

接口面板占用雙PCIE槽，整張顯卡占用空間約2.5槽位，裝進(jìn)我的MATX主機(jī)后不遮擋第二個(gè)PCIE x16插槽

技嘉魔鷹RTX 4070Ti顯卡的品牌logo和散熱風(fēng)扇有RGB燈，流光溢彩很是漂亮

游戲性能出色

RTX4070Ti的游戲性能與上代旗艦3090Ti相當(dāng)，考慮DLSS3的加持的話，在很多游戲中可以獲得更加流暢的游戲體驗(yàn)。

在基準(zhǔn)測(cè)試中，3DMark Timespy圖形分22089，F(xiàn)irestrike圖形分51493。依據(jù)notebookcheck，RTX3090Ti的得分分別為21645和53110，兩者可以說(shuō)是五五開(kāi)。

與RTX30系顯卡不同的是，RTX4070Ti支持DLSS3技術(shù)，這使其應(yīng)對(duì)大型游戲更為從容，官方宣稱在多款游戲中相比RTX3090Ti提升顯著

有人說(shuō)RTX4070Ti的顯存位寬和容量不足以暢玩4K游戲，我自己在4k屏上實(shí)測(cè)這塊顯卡運(yùn)行賽博朋克2077，不開(kāi)啟DLSS、將特效開(kāi)到【超級(jí)】時(shí)的平均幀為75.1，最低幀為64.83，最高為101.18。

在開(kāi)啟DLSS時(shí)，預(yù)設(shè)方案調(diào)整為【光線追蹤：超級(jí)】依然可以實(shí)現(xiàn)62.71的平均幀，最低幀也有51.67，最高幀有77.67，足夠暢玩了。

基于NVIDIA Ada Lovelace架構(gòu)的RTX4070TI具有第四代Tensor Core，從而支持DLSS3，可以利用AI創(chuàng)造更多高質(zhì)量幀。

體現(xiàn)在游戲中，它可以在賽博朋克2077內(nèi)開(kāi)啟DLSS 所特有的【幀生成】技術(shù)，可以進(jìn)一步提升畫(huà)面流暢度，開(kāi)啟后即便是在【光線追蹤：超級(jí)】預(yù)設(shè)下，依然可以實(shí)現(xiàn)86.31的平均幀，最低幀也可高達(dá)74.82，相比未開(kāi)啟【幀生成】時(shí)平均幀提升高達(dá)37.6%，最低幀提升高達(dá)44.8%，DLSS3比之DLSS2乃至未開(kāi)啟DLSS時(shí)的加速效果著實(shí)顯著！

由此測(cè)試來(lái)看，DLSS3加持下的RTX4070Ti基本足夠喂飽4k60顯示器了。

值得一提的是，RTX4070Ti的功耗很低，TDP只有285W，NVIDIA官方宣稱其游戲平均功耗僅226W，搭配7800x3d或i5-13600KF的話650W的電源就已足夠，利好itx小主機(jī)玩家。

科學(xué)計(jì)算可堪一用

RTX4070Ti的一個(gè)優(yōu)點(diǎn)是其算力強(qiáng)勁，官方宣稱其算力可達(dá)40.09TFLOPS，比之3090Ti的40TFLOPS還略高一點(diǎn)，非公版顯卡的算力還可以更強(qiáng)一點(diǎn)。

在Aida64 GPGPU測(cè)試中，技嘉魔鷹RTX4070Ti 單精度FP32算力為42056GFLOPS，，作為對(duì)比，上代次旗艦RTX3080僅29212GFLOPS，RTX4070Ti比之強(qiáng)出近44%；消費(fèi)級(jí)頂級(jí)處理器R9-7950x的算力僅為2677GFLOPS，RTX4070Ti比之強(qiáng)出近15倍；12代酷睿中堅(jiān)12700KF僅1437GFLOPS，RTX4070Ti比之強(qiáng)出近29倍。

巨大的算力差距意味著在使用RTX4070Ti GPU進(jìn)行計(jì)算時(shí)相比CPU有著巨大的速度優(yōu)勢(shì)，在matlab R2022a中，對(duì)隨機(jī)生成的10,000維矩陣進(jìn)行矩陣乘時(shí)，RTX 4070Ti相比R9-7950x快出近4,339倍！

AI應(yīng)用和研究入門(mén)佳選

有著成熟CUDA生態(tài)的N卡是AI領(lǐng)域絕對(duì)的大哥，與科學(xué)計(jì)算不同的是，AI領(lǐng)域?qū)﹄p精度運(yùn)算需求不大，而對(duì)單精度以及更低精度的運(yùn)算有所需求，巧的是老黃刀法在Geforce上主要是雙精度算力，對(duì)單精度沒(méi)有下刀，因此很多人選購(gòu)Geforce系列的顯卡跑AI模型。

AI應(yīng)用

RTX4070Ti的顯存雖然只有12GB，但也足以運(yùn)行包括GPT，GPT-2在內(nèi)的大多數(shù)AI模型。畢竟模型體積爆炸主要是近幾年的事，而且自Transformer后，模型基礎(chǔ)架構(gòu)其實(shí)沒(méi)太多變化。

基于GPT-3.5和GPT-4的chatgpt是近期的AI現(xiàn)象級(jí)應(yīng)用，它在自然語(yǔ)言、圖片識(shí)別相關(guān)的諸多領(lǐng)域達(dá)成了超越人類的表現(xiàn)，基于它的New Bing已經(jīng)是我科研日常中不可或缺的一環(huán)。

但是公共大語(yǔ)言模型（LLMs）有其缺點(diǎn)，本地部署一個(gè)也是一時(shí)髦選擇。在一眾大模型不斷取得新的成就時(shí)，如何將其輕量化成了一個(gè)熱門(mén)話題。近期，阿卜杜拉國(guó)王科技大學(xué)的Vision-CAIR課題組推出了miniGPT-4，demo的顯存消耗可以低至12GB。

用Stable diffusion畫(huà)圖也是一件很有趣的事，精細(xì)調(diào)整prompt后的圖很漂亮（很多人甚至用它來(lái)畫(huà)人），抽象風(fēng)格的圖則頗為有趣。我使用diffusers 包來(lái)進(jìn)行本地繪圖，顯存占用約8GB。

生成一張512*512尺寸畢加索風(fēng)格的小松鼠圖片只需要6秒。

更為具體的行業(yè)應(yīng)用對(duì)于模型規(guī)模的要求可以更低，上個(gè)世紀(jì)的LeNet即可很好的實(shí)現(xiàn)手寫(xiě)數(shù)字的識(shí)別，

AI研究

用于科研Idea驗(yàn)證時(shí)RTX4070ti是一個(gè)很好的選擇：算力不錯(cuò)、價(jià)格門(mén)檻不高。如前文所述，RTX4070Ti與7950X相比進(jìn)行矩陣乘法運(yùn)算時(shí)加速可高達(dá)四千余倍，在進(jìn)行高效數(shù)據(jù)科學(xué)算法開(kāi)發(fā)和idea驗(yàn)證時(shí)，稍微一等就可看到結(jié)果，科研體驗(yàn)極佳。

進(jìn)行AI以及與AI相關(guān)學(xué)科的研究時(shí)，有著成熟CUDA生態(tài)支撐的RTX4070Ti也是頗具性價(jià)比的選擇。華盛頓大學(xué)在讀博士Tim Dettmers繪制了16bit訓(xùn)練、16bit推理和8bit推理相對(duì)價(jià)格的相對(duì)表現(xiàn)，可見(jiàn)RTX4080高居榜首，隨后便是RTX4090和RTX 4070Ti，再考慮電費(fèi)的話RTX4070Ti的性價(jià)比更為突出。

Tim Dettmers認(rèn)為，如果一個(gè)人不折騰Transformer以及基于它的大預(yù)言模型，RTX4070Ti用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型也基本夠用了。

對(duì)于學(xué)生而言，4070Ti比之4080和4090更為合適一些：學(xué)習(xí)Deep Learning和Reinforcement Learning的話足夠用了。我入門(mén)Deep Learning時(shí)間的參考書(shū)是李沐的《動(dòng)手學(xué)深度學(xué)習(xí)》，從MLP到CNN、RNN再到small Transformer，RTX4070Ti均可以勝任。

有的朋友會(huì)講12GB顯存還是小了點(diǎn)，跑不動(dòng)很多領(lǐng)域的SOTA模型，但是面臨這一問(wèn)題應(yīng)該想的其實(shí)不是顯卡顯存多大，而是沒(méi)有豐富的數(shù)據(jù)和算力資源為什么要選擇對(duì)此有需求的研究或應(yīng)用方向。舉個(gè)例子，探索網(wǎng)絡(luò)結(jié)構(gòu)需要在龐大的模型空間中進(jìn)行搜索，頂會(huì)上層出不窮的此類文章耗費(fèi)巨量的計(jì)算資源，幾百塊顯卡運(yùn)行幾十天才能跑的出不錯(cuò)的網(wǎng)絡(luò)架構(gòu)。

SOTA級(jí)別的模型意味著海量的運(yùn)算資源耗費(fèi)，通用人工智能和大模型可以說(shuō)是當(dāng)前的國(guó)民熱點(diǎn)，但是普通人、普通團(tuán)隊(duì)和院校根本無(wú)力從頭搭建一個(gè)屬于自己的大模型，從基礎(chǔ)的Bert-Base，到GPT，再到GPT-4，運(yùn)算成本越來(lái)越高，高質(zhì)量語(yǔ)料的需求也越來(lái)越高，有志于此的朋友應(yīng)該考慮加入業(yè)界公司而不是待在普通學(xué)校的課題組，更不應(yīng)該考慮自己或小團(tuán)隊(duì)做一個(gè)出來(lái)。

我們需要清醒的認(rèn)識(shí)到，學(xué)術(shù)界和工業(yè)界在AI領(lǐng)域分道揚(yáng)鑣、漸行漸遠(yuǎn)。AI相關(guān)領(lǐng)域有著大量的普通人、單張消費(fèi)級(jí)顯卡便能玩轉(zhuǎn)的問(wèn)題，比如：

●?強(qiáng)化學(xué)習(xí)：頂會(huì)的文章也不乏使用簡(jiǎn)單模型的優(yōu)秀作品。

●?模型解釋性：折騰MLP或CNN的解釋性，只需要基礎(chǔ)模型和少量數(shù)據(jù)。

●?細(xì)分領(lǐng)域+AI：相對(duì)小的模型和數(shù)據(jù)，我之前聽(tīng)過(guò)某年輕杰青的報(bào)告，轉(zhuǎn)化復(fù)雜問(wèn)題為自己專業(yè)框架內(nèi)的問(wèn)題而后以新模型進(jìn)行分析和解答。

●?模型壓縮和加速：考慮16bit乃至8bit量化、剪枝和蒸餾，比如colossal-AI的工作，使用CPU+GPU的異構(gòu)內(nèi)存，相比Stable Diffusion減少50%以上的顯存占用。

Colossal-AI也對(duì)GPT-2和PaLM進(jìn)行了加速，在小顯存的顯卡上也可以進(jìn)行訓(xùn)練。

如果一定要追熱點(diǎn)搞大模型刷榜，應(yīng)該考慮的其實(shí)不是自己應(yīng)該買(mǎi)個(gè)什么卡，而是應(yīng)該說(shuō)服老板（導(dǎo)師）買(mǎi)云服務(wù)器算力資源或申請(qǐng)（購(gòu)買(mǎi)）運(yùn)算集群。AI研究是個(gè)很大的領(lǐng)域，資源多有資源多的玩法，少有少的玩法，適合自己的才是最好的。

生產(chǎn)力應(yīng)用效能出色

很多朋友買(mǎi)顯卡是用來(lái)進(jìn)行視頻剪輯加速、渲染以及泛內(nèi)容創(chuàng)作，有著成熟軟件生態(tài)支撐的RTX4070Ti 表現(xiàn)出色。誠(chéng)然，RTX 4070Ti并不像RTX 4090那么強(qiáng)，但也足以應(yīng)對(duì)絕大多數(shù)人的內(nèi)容創(chuàng)作需求。

視頻編輯

視頻編輯是當(dāng)前內(nèi)容創(chuàng)作向電腦搭建的常見(jiàn)需求，很多朋友通過(guò)視頻內(nèi)容創(chuàng)作來(lái)獲得副業(yè)乃至主要收入、擴(kuò)大自身的影響力。高規(guī)格的視頻編輯對(duì)性能有著較高的要求，往往需要通過(guò)顯卡進(jìn)行加速，NVIDIA RTX4070Ti具有兩個(gè)第 8 代 NVIDIA 編碼器 (NVENC) ，支持 AV1 編碼，不論是視頻編輯還是直播，都能夠以更高的分辨率展現(xiàn)驚艷的直播效果。

我使用Blackmagicdesign公司出品的Blackmagic RAW Speed Test軟件對(duì)其進(jìn)行了測(cè)試，測(cè)試結(jié)果表明，即便是8k BRAW視頻其依然可以實(shí)現(xiàn)高達(dá)218幀的編輯能力，足以應(yīng)對(duì)絕大多數(shù)業(yè)余視頻編輯和個(gè)人up主/小工作室的視頻編輯需求。

渲染

渲染是典型的重性能生產(chǎn)力工作，一塊高性能顯卡無(wú)疑可以極大提升渲染效率。我手上這塊技嘉魔鷹RTX 4070Ti在V-Ray官方出品的Benchmark測(cè)試軟件中，GPU RTX成績(jī)?yōu)?105，GPU CUDA成績(jī)?yōu)?317。

作為對(duì)比，RTX3080 10GB的GPU RTX得分僅2302，GPU CUDA得分僅1723，RTX 4070Ti比RTX 3080 10GB強(qiáng)出約35%。

重度辦公

強(qiáng)勁的GPU用于重度辦公也會(huì)帶來(lái)體驗(yàn)的顯著提升，動(dòng)畫(huà)特效、影像編輯等工作將更為順手。在PCMARK10 現(xiàn)代辦公場(chǎng)景中，安裝技嘉魔鷹RTX 4070Ti后的主機(jī)得分高達(dá)9862，相比核顯時(shí)提升近2500分！在Productivity和Digital Content Creation中得分顯著提升。

RTX 4070Ti的低功耗、高能效帶來(lái)了很好的散熱體驗(yàn)，這塊三風(fēng)扇設(shè)計(jì)的技嘉魔鷹 RTX4070ti顯卡在我的20L小機(jī)箱內(nèi)滿載僅224W，風(fēng)扇僅2100多轉(zhuǎn)，噪音遠(yuǎn)低于CPU散熱風(fēng)扇噪音，平時(shí)低負(fù)載時(shí)技嘉魔鷹RTX 4070Ti還會(huì)關(guān)閉風(fēng)扇以進(jìn)一步降低噪音。

總結(jié)：不那么甜，但也甜

RTX4070ti作為新一代中高端顯卡，在現(xiàn)在這個(gè)AI變現(xiàn)普及的時(shí)代頗有可為，學(xué)生黨完全可以基于它搭建主力機(jī)用于游戲娛樂(lè)、科研idea驗(yàn)證，它也完全可以應(yīng)對(duì)小工作室和新人up主進(jìn)行內(nèi)容創(chuàng)作時(shí)對(duì)顯卡的需求。

綜合來(lái)看，RTX 4070Ti 依然是一款甜點(diǎn)卡，雖然它不像幾年前的前輩們那么甜：

●?用于游戲時(shí)，它足以在運(yùn)行賽博朋克2077這種游戲巨制時(shí)喂飽4k@60Hz顯示器，192bit位寬和12GB的顯存并不是不能玩4k。

●?有CUDA生產(chǎn)力需求的話，RTX4070ti在相近價(jià)位并沒(méi)有什么競(jìng)品，礦卡實(shí)無(wú)必要，運(yùn)算卡的算力又低的可憐；AMD顯卡的ROCM框架限制很多而且不很成熟，Intel的技能點(diǎn)還沒(méi)加在這上面?？陀^的說(shuō)，RTX4070Ti是一個(gè)比選購(gòu)3090Ti礦卡以及大顯存計(jì)算卡更為靠譜的選擇。

一段時(shí)間使用下來(lái)，我手上這塊技嘉魔鷹RTX4070Ti的體驗(yàn)還挺不錯(cuò)，安靜、漂亮、價(jià)格不高、性能出色，它可以很好的完成日常的神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)、科研idea驗(yàn)證、游戲娛樂(lè)工作，是一塊很均衡的顯卡。

標(biāo)簽：科學(xué)計(jì)算 RTX 4070Ti DIY 顯卡 AI NVIDIA 機(jī)器學(xué)習(xí)深度學(xué)習(xí)