【圖吧梗百科02】A卡偷電,N卡偷U(戰(zhàn)術(shù)核顯卡) 、戰(zhàn)未來
額……老鐵們,我圖吧老撿垃圾的了。最近咱一直在忙活測(cè)試國(guó)產(chǎn)CPU在4K下的游戲表現(xiàn),期間用到了面對(duì)N卡的時(shí)候的一些優(yōu)化方法。正好上期咱講了為什么AMD會(huì)被稱為農(nóng)企? ,所以這期咱繼續(xù),簡(jiǎn)單講下隔壁卡吧的梗。
這次的梗其實(shí)相比上期語焉不詳來源不明的梗明確很多,是可以直接找到出處的。
1.A卡偷電,N卡偷U(偷電部分)
這個(gè)梗的來源其實(shí)年代比較久遠(yuǎn),距今大約有十年甚至后半句應(yīng)該達(dá)到十年以上了。
關(guān)于A卡偷電這個(gè)梗其實(shí)比較容易解釋,就是AMD在強(qiáng)拉GCN小架構(gòu)核心頻率的時(shí)候錯(cuò)過了最佳能效導(dǎo)致功率表現(xiàn)不佳,顯卡實(shí)際功耗大于設(shè)計(jì)功耗的這么一個(gè)情況。



具體癥狀表現(xiàn)為單6PIN供電帶不動(dòng)顯卡,需要從主板的PCIe多取電

A卡咱不知道,如果是N卡的話用GPUz之類的看統(tǒng)計(jì)信息可以發(fā)現(xiàn)偷電狀態(tài)下PCIe SLOT POWER是高于75W的

正常來說PCIe無論1.1 2.0 3.0還是以上版本×多少帶寬從主板取電的插槽供電能力是固定的75W,一般的主板由于12V供電設(shè)計(jì)不足通常PCIe供電只能按50W計(jì)算,高于這個(gè)功耗就要上外接供電(所以垃圾佬的七彩虹750沒Ti也有6pin的供電),早期主板甚至由于ATX電源供電能力不足還會(huì)特意在顯卡的PCIe旁邊設(shè)計(jì)大4D供電口增強(qiáng)供電。
普通消費(fèi)級(jí)顯卡本身帶寬都是×16 ,少部分低端亮機(jī)卡可能會(huì)用×8或者更低,然而無論工作在×多少PCIe的供電看定義圖就知道供電是一樣的。


單6PIN是外接供電里面最弱的,理論上只能提供雙路12V 8A輸入,實(shí)際上還會(huì)低一些一般只能算75W,有的情況下可以用SATA轉(zhuǎn)6PIN給總功率120W的顯卡供電但是到顯卡電壓會(huì)降,轉(zhuǎn)接線如果太細(xì)容易出問題總之不是什么好事。所以150W的如果功耗控制壓不住,實(shí)際功耗大于TDP很容易就導(dǎo)致6PIN沒法給出足夠供電最后要從主板多取電。

如果顯卡的功耗太高外接6PIN 8PIN的供電不足以滿足功耗需求顯卡就會(huì)從主板過量取電作為補(bǔ)償,這樣的話一些做工比較差供電冗余能力不足的低端主板很容易出問題,所以A卡偷電還是挺嚴(yán)重的問題的。

后來A卡在RX480的馬甲R(shí)X580上換了8pin供電解決了A卡偷電的問題。所以現(xiàn)在市面上大批量用RX470 480 570甚至470D刷出來的580通常也都面臨同樣的問題,別的第三方我不知道公版的話AMD的580肯定是8PIN(6+2)起步的,6PIN只要買到基本都可以按刷BIOS處理。
所以不建議各位入手AMD RX580礦卡的理由又多了一個(gè)

風(fēng)水輪流轉(zhuǎn),歷史是個(gè)圈,現(xiàn)在回到N卡功耗差+燒供電接口的時(shí)代了。這樣的顯卡連供電接口都無法保護(hù)恐怕從主板偷電也是必然的了。追求極致性能不考慮能效功耗的時(shí)代終會(huì)過去,歷史大浪淘沙只有最好的產(chǎn)品才能歷久彌新。
2.核彈顯卡(戰(zhàn)術(shù)核顯卡)
核彈卡這個(gè)梗其實(shí)比較簡(jiǎn)單了,基本上一句戰(zhàn)術(shù)核顯卡就能解釋:




這里我們不能簡(jiǎn)單看電視臺(tái)照著百度百科念稿然后整出冥場(chǎng)面的表象,要研究顯卡被稱為核彈的深層原理。
上期為什么AMD顯卡礦卡多? 中我們說過AMD的顯卡無論是HD6000以前的VILW還是GCN都是小核心的架構(gòu),以提升能效比堆芯片規(guī)模提高流處理器數(shù)量為思路,而NVIDIA在當(dāng)時(shí)的G80 G92 GT200核心都是大核心面積高功耗高發(fā)熱的大核心架構(gòu)所以被用戶冠以核彈之名。直到費(fèi)米和開普勒時(shí)代N卡的能效比低核心面積大的問題都沒解決,直到后來才慢慢開始精簡(jiǎn)核心走小核心的數(shù)量。這樣就導(dǎo)致了后續(xù)的很多問題,接下來我們會(huì)說。

GK104有35.4億個(gè)晶體管以及294 mm2的核心面積,單核心最大功耗可以輕松達(dá)到200W+,雙芯顯卡(相當(dāng)于單顯卡內(nèi)部有兩個(gè)GPU進(jìn)行SLI或者交火)的GTX690還只能屈居第二作為第二代核彈卡。
順帶說下這卡現(xiàn)在已經(jīng)沒用了,即使是公版的GTX690或者是680 770 780什么的現(xiàn)在也相當(dāng)便宜,因?yàn)樗诵囊呀?jīng)老了NVIDIA已經(jīng)放棄驅(qū)動(dòng)更新支持,就連最新的畫圖AI什么的都跑不了了那個(gè)要求CUDA3.7然而KEPLER架構(gòu)的核心普遍只能支持CUDA3.0,跑畫圖AI最低要求也得是MAXWELL的GTX750,開普勒的馬甲卡都不行。
初代核彈卡GTX590采用了兩個(gè)40nm的GF110費(fèi)米核心,芯片尺寸為 520 平方毫米,晶體管數(shù)量為 30 億個(gè),是一個(gè)非常大的芯片。至于功耗?好吧,單芯功耗最高可達(dá)600W,是個(gè)放在今天都非常驚人的水平我敢說40系顯卡也沒有這么NB的功耗。所以今天的龍芯圈攻擊隔壁國(guó)產(chǎn)X86 CPU 70W功耗太高烤機(jī)的時(shí)候整機(jī)功耗超過100W在圖吧垃圾佬眼里看都不算事,過去和現(xiàn)在比這離譜的功耗有的是,現(xiàn)在的輕薄本卷45W+甚至極限功率65-90W的都有,游戲本更是200-300W都不少見。
順帶說下作為40系Fermi架構(gòu)的原名現(xiàn)實(shí)中的恩里科·費(fèi)米真的是核物理學(xué)家,參加過曼哈頓計(jì)劃,完成了首次人工自持續(xù)鏈?zhǔn)椒磻?yīng)??赡苓@也是第一代核彈卡會(huì)在N卡發(fā)展到費(fèi)米架構(gòu)才得名的原因吧。也可能在更早的時(shí)候N卡就有核彈的名號(hào)但是沒有具體被綁定在某一個(gè)固定的顯卡型號(hào)上。
3.N卡偷U
關(guān)于A卡偷電的資料其實(shí)非常多,畢竟這個(gè)事情非常簡(jiǎn)單三言兩語就能說明白,但是對(duì)于N卡偷U來說資料就很少了。具體的科普視頻現(xiàn)在現(xiàn)存其實(shí)非常少,只有這兩個(gè)視頻有具體涉及原理的講解,各位有興趣可以看看:
【顯卡】科普:CPU不能選太差,小心“N卡偷U” ? BV12i4y1P7nF
【科普】【Dataland】N卡偷U?A卡戰(zhàn)未來? BV1zW411B7rz
之前我們?cè)谏衔囊约扒白鳛槭裁碅MD顯卡礦卡多? 中說過,N卡的費(fèi)米核心作為同時(shí)兼顧游戲和運(yùn)算功能的計(jì)算卡核心,它擁有相當(dāng)高的雙精度運(yùn)算的性能(雖然流處理器數(shù)量相比特斯拉架構(gòu)大幅提升但是每個(gè)流處理器的性能卻大幅降低了),而當(dāng)時(shí)N卡擁有相當(dāng)復(fù)雜的硬件調(diào)度器,這可以讓CPU節(jié)省更多的資源卻增大了顯卡的負(fù)載,客觀上惡化了費(fèi)米顯卡功耗高芯片面積大的問題。所以在開普勒時(shí)代N卡就開始將調(diào)度器精簡(jiǎn),并把GPU硬件資源調(diào)度的工作甩給CPU,具體就是把GPU指令調(diào)度轉(zhuǎn)移到CPU(通過驅(qū)動(dòng)層面編譯器),所以N卡在DX11上有相當(dāng)強(qiáng)的優(yōu)勢(shì)以及在DX12和VULKAN存在劣勢(shì)。這也是NVIDIA看準(zhǔn)了DX12短時(shí)間內(nèi)不會(huì)普及做出的決定。從今天來看這個(gè)眼光相當(dāng)之準(zhǔn),直到今天原神之類的游戲還在用DX11,DX12和VULKAN并沒有大范圍推廣。

而對(duì)于CPU來說,N卡相比A卡占用了更多的CPU資源是一定的,因?yàn)镃PU要負(fù)責(zé)GPU的指令調(diào)度,所以驅(qū)動(dòng)程序會(huì)占用更多的CPU資源,這樣對(duì)于單核性能不強(qiáng)或者核心數(shù)量不高的CPU來說就更加明顯了。

無論驅(qū)動(dòng)是否能把調(diào)度GPU指令占用的CPU負(fù)載均攤,一般來說對(duì)于CORE 0主線程的負(fù)載都更高。所以對(duì)于垃圾佬來說的實(shí)際影響就是對(duì)于兆芯KX6000這種單核性能不夠核心數(shù)來湊的小核心架構(gòu)CPU來說如果全核性能夠用單核性能不足的前提下,在任務(wù)管理器中可以有效避免CPU0跑滿的問題優(yōu)化CPU調(diào)度。


即使解除了游戲進(jìn)程CPU0的進(jìn)程相關(guān)性,CPU0進(jìn)程或者說圖上顯示的CPU1依然有挺高的負(fù)載,這也就是N卡驅(qū)動(dòng)使用CPU調(diào)度GPU指令的開銷了,過去這個(gè)開銷和游戲進(jìn)程一起壓在CPU0上就容易造成游戲的卡頓,現(xiàn)在知道N卡偷U的原理之后就可以把CPU0進(jìn)程讓出來給顯卡驅(qū)動(dòng)用剩下的核心在均攤游戲進(jìn)程負(fù)載就好了。
解決了這個(gè)問題之后,垃圾佬可以拿550包郵的國(guó)產(chǎn)CPU主機(jī)配1066大戰(zhàn)3A甚至開4K,這也是比較意外同時(shí)又在意料之中的一點(diǎn)。
意外的是國(guó)產(chǎn)CPU的性能居然能拉得動(dòng)4K游戲,這個(gè)水平確實(shí)讓人非常意外,但是意料之中的又是垃圾佬撿垃圾多年,早就知道CPU性能其實(shí)已經(jīng)走到了顯卡的前面。無論是AMD羿龍2六核還是英特爾X58,CPU的多核性能水平其實(shí)到現(xiàn)在早就能滿足日常使用需求甚至十年以上的硬件都綽綽有余。真正的性能瓶頸主要還是在顯卡,無論是運(yùn)行AI還是圖形處理,CPU的時(shí)代早就落寞了。真正成為瓶頸的其實(shí)是國(guó)產(chǎn)顯卡。不知道國(guó)產(chǎn)顯卡未來會(huì)是什么設(shè)計(jì),無論購(gòu)買IP核還是自行設(shè)計(jì),驅(qū)動(dòng)對(duì)CPU的硬件占用都是相當(dāng)有意思的參數(shù),無論偏向硬件調(diào)度器還是軟件調(diào)度器,都需要配合軟件優(yōu)化才能實(shí)現(xiàn)最佳表現(xiàn)。
總之解決N卡偷U的問題其實(shí)從根本上是無解的,取決于核心設(shè)計(jì)。至于任務(wù)管理器手動(dòng)調(diào)節(jié)游戲的進(jìn)程相關(guān)性這個(gè)方法只能緩解問題,對(duì)于所有費(fèi)米以上的N卡來說都有效,當(dāng)核心數(shù)量多單核性能偏弱的時(shí)候都可以讓出CPU0的進(jìn)程給N卡驅(qū)動(dòng)使用。
4.AMD戰(zhàn)未來(雞血驅(qū)動(dòng))
經(jīng)過上面的故事我們已經(jīng)知道了AMD的顯卡在GCN時(shí)代之后越來越像費(fèi)米時(shí)代的設(shè)計(jì)思路,保留了計(jì)算卡的特性。當(dāng)然大小核心的區(qū)別還是有的。而且AMD保留顯卡的雙精度浮點(diǎn)之類的運(yùn)算性能的原因也是比較明確的:服務(wù)于HSA異構(gòu)計(jì)算的APU,即AMD推土機(jī)打樁機(jī)壓路機(jī)挖掘機(jī)架構(gòu)時(shí)代的設(shè)計(jì)思路,削減CPU浮點(diǎn)性能,將浮點(diǎn)運(yùn)算交由GPU進(jìn)行,這個(gè)思路放在今天是相當(dāng)不錯(cuò)的,ARM就繼承了這個(gè)思想,在移動(dòng)端大量應(yīng)用。然而AMD本身卻拉了很長(zhǎng)時(shí)間最后放棄或者說擱置了HSA異構(gòu)計(jì)算的設(shè)計(jì),但是直到現(xiàn)在依然保留了顯卡的雙精度浮點(diǎn)性能并沒有像N卡一樣直接砍了,計(jì)算卡游戲卡分家。
AMD GCN的故事我們就比較熟悉了,祖?zhèn)骷軜?gòu),多年不換。

結(jié)果就是AMD的顯卡早期在剛出現(xiàn)的時(shí)候首版驅(qū)動(dòng)表現(xiàn)不佳,性能發(fā)揮相當(dāng)感人,當(dāng)時(shí)AMD的HD7850甚至打不過750,而N卡的驅(qū)動(dòng)優(yōu)化一直很好,即使后期在偷U整體表現(xiàn)也比AMD強(qiáng)。但是AMD后來由于多年一直打磨GCN架構(gòu)多少年不換,就導(dǎo)致每當(dāng)有驅(qū)動(dòng)更新老卡都能享受優(yōu)化性能表現(xiàn)就有提升,像7850的性能直到22年還能凹,每次都有新感覺。這個(gè)提升幅度還是相當(dāng)大的。所以到今天19年賣100的7850還賣100,19年200的GTX670卻賣不到200了,已經(jīng)結(jié)束類放棄驅(qū)動(dòng)支持了。

A卡已經(jīng)啟用RDNA架構(gòu)多年卻還在更新GCN1.0顯卡驅(qū)動(dòng),他真的我哭死。
所以之前我們說AMD礦卡為什么多還只是一個(gè)模糊概念,A卡更適合計(jì)算挖礦更強(qiáng)之類的。其實(shí)有沒有這么一種可能,就是A卡可能真的很強(qiáng),不單單是挖礦性能能體現(xiàn)出來計(jì)算性能,游戲性能其實(shí)在有足夠優(yōu)化的情況下也能體現(xiàn)出來,包括英特爾和摩爾線程。
這里簡(jiǎn)單接上期說一下:挖礦的傻嗎,買一大堆性能不咋地功耗還高的顯卡回去挖礦不是等著虧錢嗎,其實(shí)并不是。
RTX3080超頻后ETH算力大概在60-65MH/s左右,還得是三星顆粒顯存才行。按照過去的幣價(jià),每天賺37元。去掉電費(fèi)、礦池抽水、挖礦軟件抽水、超頻不穩(wěn)定的干擾,當(dāng)天凈收益勉強(qiáng)到35元。
華碩將 CMP 40HX 礦卡的挖礦效率將從英偉達(dá)官方宣布的 36 MH/s 提高到 43.77 MH/s。從內(nèi)部測(cè)試的截圖判斷,CMP 40HX 卡的功率已經(jīng)由廠家優(yōu)化到到僅 135W,從而將挖礦效率提高至 400 KH/W。
AMD RX 580 can reach 32.74 MH/s hashrate and 84 W power consumption for mining ETH (Ethash). Nvidia P106-100 can reach 21.35 MH/s hashrate and 107 W power consumption for mining ETH (Ethash).
GTX 1060 正常算力是超頻23MH/s,默頻20MH/s
NVIDIA GeForce GTX 960 can reach 7.26 MH/s
Nvidia GTX 1080 can reach 35.16 MH/s hashrate and 160 W power consumption for mining ETH
長(zhǎng)話短說就是AMD的GCN顯卡以RX580舉例它算力可以達(dá)到32.74而功耗僅84W,而1066或者P106只能達(dá)到20多還得用100W以上,960之類的都沒法看,1080要達(dá)到同樣的算力也得至少160W,所以挖礦的肯定不愛用,貴又費(fèi)電,挖礦肯定卷不過能效比高的卡。


而后來的40HX之類的其實(shí)也是卷不過AMD的GCN5.0 VEGA顯卡的,這玩意內(nèi)置HBM2顯存,對(duì)于吃顯存的挖礦來說更是如虎添翼,所以這波礦潮中招的A卡數(shù)量肯定是遠(yuǎn)遠(yuǎn)大于N卡的,這個(gè)不用懷疑,但是還是那句話,如果因?yàn)橥诘V就砍掉游戲卡的運(yùn)算性能那是因噎廢食,挖礦的打擊或者說管制還是需要靠法制而不是自廢武功的。當(dāng)然如果國(guó)產(chǎn)能出手像硬盤礦一樣靠提產(chǎn)能大量出貨低價(jià)高質(zhì)產(chǎn)品干崩挖礦也不是不可能,那具體就看他們本事了。
就這樣,謝謝朋友們!