第二代驍龍8官方揭秘:如何用5W功耗跑光追?
上周2022驍龍峰會(huì)正式發(fā)布全新第二代驍龍8移動(dòng)平臺(tái),會(huì)后高通也舉行了技術(shù)專訪,回答了許多媒體關(guān)心的問題。
Q:Arm在6月份發(fā)布了A715,比A710能效提升了20%,從能效來看這應(yīng)該是很大的提升,64位應(yīng)用目前普及率應(yīng)該足夠高了,而且新的小核也是可以跑32位的,所以想問問為什么高通要為了32位的應(yīng)用的支持去犧牲兩個(gè)性能核的能效呢?
A:我們看到中國以及其他不同市場(chǎng)應(yīng)用方面的情況,確實(shí)目前正在由32位應(yīng)用向64位應(yīng)用過渡,但是這樣的過渡和轉(zhuǎn)型還沒有完全實(shí)現(xiàn),現(xiàn)在還是有一定數(shù)量的應(yīng)用使用32位,所以對(duì)我們來講現(xiàn)在這個(gè)核心的配置是合理的。
另外,如果說我們只使用A715的話會(huì)出現(xiàn)一個(gè)問題,那就是我們?cè)谂?2位應(yīng)用的時(shí)候只能放在效率內(nèi)核上來跑,這樣就無疑會(huì)犧牲相關(guān)的性能,所以我們覺得在性能內(nèi)核方面既有A710,也有A715是正確的選擇。
我想補(bǔ)充一下,在第二代驍龍8移動(dòng)平臺(tái)上,有一個(gè)超大核,四個(gè)性能內(nèi)核和三個(gè)效率內(nèi)核,這樣在運(yùn)行游戲等更加復(fù)雜的多線程應(yīng)用時(shí),能夠大幅提升性能。
Q:那高通這邊有沒有什么舉措或技術(shù)去推動(dòng)32位應(yīng)用向64位的轉(zhuǎn)型?比如芯片級(jí)別的轉(zhuǎn)譯這種?
A:目前還有部分主流應(yīng)用是32位,其中不乏游戲、工具和銀行相關(guān)的應(yīng)用,這類應(yīng)用對(duì)于運(yùn)行在效率內(nèi)核還是性能內(nèi)核是敏感的。第二代驍龍8的設(shè)計(jì)是選擇將32位應(yīng)用跑在效率內(nèi)核和部分性能內(nèi)核上,確保用戶的體驗(yàn)。我們之前進(jìn)行過對(duì)比分析,通過轉(zhuǎn)譯讓32位應(yīng)用在支持64位的內(nèi)核上運(yùn)行,效率就會(huì)減半。當(dāng)然,從行業(yè)趨勢(shì)上來講,肯定是需要推動(dòng)它們向64位轉(zhuǎn)換。
Q:在上周競(jìng)品SoC發(fā)布時(shí)說的是所謂的第二代臺(tái)積電4納米工藝,N4P。據(jù)我了解第二代驍龍8依然是臺(tái)積電N4,既然臺(tái)積電有新的工藝,為什么高通這次沒有使用呢?
A:第二代驍龍8里面確實(shí)采用的是臺(tái)積電4納米制程工藝。在我們看來,這是目前這個(gè)時(shí)間節(jié)點(diǎn)最出色的制程技術(shù),而且是最適于將其大規(guī)模量產(chǎn)的。
Q:第三個(gè)問題,目前網(wǎng)絡(luò)上已經(jīng)有跑分能看到一些第二代驍龍8的測(cè)試數(shù)據(jù),發(fā)現(xiàn)三星使用的超大核是3.36GHz,而在高通官網(wǎng)上第二代驍龍8代號(hào)是SM8550-AB,三星這個(gè)是不是SM8550-AC,因?yàn)樗覀儼l(fā)布時(shí)說的頻率不一樣。
A:對(duì)于驍龍平臺(tái)來說,有時(shí)候同一款產(chǎn)品是有不同的SKU,不同的SKU在產(chǎn)品性能上會(huì)有一定的差異,比如有的會(huì)高一些,有的會(huì)低一些,目前我們還沒有辦法向大家提供更多的信息,這次驍龍峰會(huì)上發(fā)布的SKU版本,它的超大核頻率就是3.2GHz。
Q:我這邊問兩個(gè)問題。第一個(gè)問題是,效率內(nèi)核A510本身在定義的時(shí)候就是兩兩核心共享一個(gè)浮點(diǎn)運(yùn)算單元和一個(gè)二級(jí)緩存的,比如原來的第一代驍龍8和第一代驍龍8+用的就是四個(gè)A510,每?jī)蓚€(gè)A510就能共享一個(gè)浮點(diǎn)運(yùn)算單元和256KB的緩存,但現(xiàn)在的第二代驍龍8變成了三個(gè)效率內(nèi)核A510,那么它們是如何調(diào)動(dòng)和分配資源的呢?
A:第二代驍龍8的Kryo CPU擁有三個(gè)A510效率內(nèi)核、兩個(gè)A710性能內(nèi)核和兩個(gè)A715性能內(nèi)核,其中每一個(gè)性能內(nèi)核都搭載了獨(dú)享的二級(jí)緩存,并不會(huì)與其他內(nèi)核共享二級(jí)緩存或浮點(diǎn)運(yùn)算單元。同時(shí),所有內(nèi)核會(huì)共享一個(gè)8MB的三級(jí)緩存。
至于三個(gè)A510內(nèi)核之間的緩存調(diào)度策略我們不方便透露具體細(xì)節(jié),我們可以說明的是,二級(jí)緩存既可以由最多兩個(gè)內(nèi)核共享也可以由單個(gè)內(nèi)核獨(dú)享,在這方面并沒有特別的限制。
Q:第二個(gè)問題是,今年高通和友商的處理器都加入了對(duì)光追渲染的硬件級(jí)支持,我想問一下在大幅度提升了GPU性能的前提下,開啟光追渲染對(duì)Adreno GPU的影響有多大?
A:我們?cè)谶@次驍龍峰會(huì)上與我們的合作伙伴做了光追的演示,有些來自O(shè)EM廠商,有些來自游戲工作室。從演示中可以看到,這些游戲在開啟光追后仍然可以在60FPS的幀率下流暢運(yùn)行30分鐘甚至更久,有著非常穩(wěn)定的表現(xiàn)。
另外我想補(bǔ)充的是,在驍龍峰會(huì)上我們展示的所有光追特性,都是在小于5W的功耗下實(shí)現(xiàn)的,這一點(diǎn)至關(guān)重要。我們的技術(shù)創(chuàng)新讓我們可以在不犧牲性能而且也不增加功耗的前提下實(shí)現(xiàn)光追。并且,這是為Adreno GPU專門打造的基于硬件的實(shí)時(shí)光追特性,并不是來自第三方授權(quán),目前僅有第二代驍龍8移動(dòng)平臺(tái)可以實(shí)現(xiàn)。
Q:我有三個(gè)方面的問題,分別是CPU、GPU和AI,首先是CPU方面的,今年增加了一個(gè)性能核是否可以明顯地降低對(duì)于超大核的使用呢?
A:這里我想強(qiáng)調(diào)一下我們的超級(jí)內(nèi)核,實(shí)際上它是專門針對(duì)單線程的重度工作負(fù)載,而且我們?cè)谶@方面專門進(jìn)行了優(yōu)化。性能內(nèi)核主要是面向高性能、多線程的工作負(fù)載,所以如果我們面對(duì)的是多線程的工作負(fù)載,其實(shí)會(huì)同時(shí)使用一個(gè)超級(jí)內(nèi)核以及四個(gè)性能內(nèi)核,但如果只是一個(gè)單線程并且需要非常高性能的工作負(fù)載,這時(shí)候我們還是主要用超級(jí)內(nèi)核。
Q:CPU的問題,注意到上一代驍龍8其實(shí)也是8個(gè)核心的設(shè)計(jì),這一代以后還是8個(gè)核心,所以,在設(shè)計(jì)的時(shí)候都是偶數(shù),這是一種特別的考慮嗎,還是說有一些什么樣的考量維持在8核的設(shè)計(jì),而不是說今年單純做一個(gè)加法做一個(gè)性能核呢?
A:隨著過去我們看到的市場(chǎng)發(fā)展方向以及產(chǎn)品演進(jìn)方向,對(duì)于性能內(nèi)核的需求是與日俱增的,而對(duì)效率內(nèi)核的需求有所下降,所以為了能夠進(jìn)一步增強(qiáng)產(chǎn)品性能,我們就多加了一個(gè)性能內(nèi)核,而考慮到效率內(nèi)核的使用頻率降低,我們就減少了一個(gè)效率內(nèi)核。另外我想補(bǔ)充一下,對(duì)我們來講,所有的性能內(nèi)核都可以保持非常高的能效。
另外我想補(bǔ)充一下,首先剛才您問到為什么還是保持8核,因?yàn)閷?duì)智能手機(jī)整個(gè)外形尺寸來講,8核實(shí)際上是最為合理的,而且能為我們帶來最大的、來自核心的一些益處。另外Karl所講的性能和功耗方面的對(duì)比,我們減少了一個(gè)效率內(nèi)核并增加了一個(gè)性能內(nèi)核,并沒有對(duì)平臺(tái)整體的功耗產(chǎn)生任何負(fù)面影響,反而可以在保持低功耗的同時(shí)帶來更強(qiáng)大的性能。所以對(duì)我們而言,目前智能手機(jī)采用8核已經(jīng)算是上限了,我們要在8核范圍之內(nèi)做文章。
Q:接下來是GPU的問題,要在5W的功耗內(nèi)做到硬件級(jí)的光線追蹤有非常大的挑戰(zhàn),想了解一下高通在這方面有一些什么樣獨(dú)到的技術(shù)能夠支持在5W的功耗之內(nèi)還能做到光線追蹤呢?
A:就像剛才Ziad所說的,硬件加速的實(shí)時(shí)光追特性實(shí)際上是針對(duì)Adreno GPU量身定制的,在GPU的管線里面使用,效果非常出色。第二點(diǎn),即使有最好的硬件設(shè)計(jì),如果應(yīng)用程序在編寫的時(shí)候沒有根據(jù)硬件進(jìn)行定制化的調(diào)整,很容易就會(huì)出現(xiàn)性能和功耗不匹配的情況,也就是說會(huì)消耗過多的功耗。
我們的同事Dave他的團(tuán)隊(duì)發(fā)揮了非常重要的作用,因?yàn)樗饕呛陀螒蛞嬉约坝螒蛑谱鞴ぷ魇议_展合作,從而確保這些游戲符合我們具體模塊的需求,也就是在光追方面符合硬件的要求以及該模塊的具體要求。正是基于雙方在軟硬件方面的合作,才能夠確保我們的光追技術(shù)能夠在保持小于5W的功耗的前提下,在不同的手游作品上發(fā)揮非常出色的能效。
Q:關(guān)于AI方面的問題是,高通用了一個(gè)微切片推理技術(shù),這個(gè)技術(shù)是不是用到了一些圖形計(jì)算和圖編譯的?
A:微切片推理技術(shù)就是在提高處理能力的同時(shí),大幅度地減少相應(yīng)的功耗,因?yàn)樵瓉淼奶幚硎且詫訛閱挝坏?,做完一層再到下一層,現(xiàn)在,我們把它變成一個(gè)一個(gè)微小的切片,放到整個(gè)模型里,以切片為單元進(jìn)行推理,這樣可以大幅度提升效率。另外我想強(qiáng)調(diào)的是,我們?cè)谟布藢?duì)它進(jìn)行了很好的控制,在軟件端,雙方針對(duì)要推理的部分,進(jìn)行進(jìn)一步的協(xié)同,就可以有非常好的效果。
您講的圖計(jì)算或者說圖編譯實(shí)際上跟我們所說的微切片推理是不一樣的。圖計(jì)算、圖編譯看的是比如語義等不同的數(shù)據(jù)點(diǎn),把它放在一個(gè)圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network, GNN)里面,體現(xiàn)不同數(shù)據(jù)點(diǎn)之間的關(guān)系。而微切片原理主要是針對(duì)一個(gè)單一的數(shù)據(jù)點(diǎn),充分地利用硬件方面的性能對(duì)它進(jìn)行更好的推理。在微切片推理方面我們是把圖分割成不同的部分,通過它能夠提高推理效率,讓這個(gè)效率最大化。
Q:最后一個(gè)問題是今年增加了對(duì)INT4精度的支持,處理器就可以支持更多的精度,是否會(huì)進(jìn)一步地引入混合精度的方式去提升AI計(jì)算的效率呢?
A:我們已經(jīng)能夠?qū)崿F(xiàn)對(duì)混合精度的支持,但是具體怎么混合取決于我們到底面向什么樣的工作負(fù)載,比如說是語言處理的工作負(fù)載還是量化方面的工作負(fù)載,我們會(huì)基于具體工作負(fù)載的要求,將整數(shù)和浮點(diǎn)的精度支持有效地整合在一起。
我想強(qiáng)調(diào)一下,我們這種對(duì)混合精度的支持是不需要手動(dòng)操作而是可以自動(dòng)實(shí)現(xiàn)的,目前第二代驍龍8移動(dòng)平臺(tái)已經(jīng)實(shí)現(xiàn)了對(duì)INT4的支持,未來,我們會(huì)在Qualcomm AI Studio上推出自動(dòng)混合精度支持(AMP),從而確保這方面的技術(shù)能夠被大家使用。
此外,還想補(bǔ)充一下的是,高通公司作為一家技術(shù)公司一直以來都非常看重整數(shù)的處理,因?yàn)槲覀兿M軌蛟谶吘墏?cè)提升AI處理能力。如果使用浮點(diǎn)的精度來進(jìn)行推理和處理,往往沒有辦法達(dá)到我們所需要的功效表現(xiàn),高通公司通過Qualcomm AI Studio能提供一應(yīng)俱全的工具,在保證準(zhǔn)確度的前提下,更好地進(jìn)行AI處理的同時(shí)保持更高的功效。
Q:我們想問一下第二代驍龍8是否會(huì)搭配新的音頻DAC方案,WCD9385是否會(huì)有后繼型號(hào)?
A:目前第二代驍龍8沒有采用新的DAC,我們看到WCD9385目前已經(jīng)擁有不錯(cuò)的性能表現(xiàn)。如果未來我們的客戶在旗艦層級(jí)市場(chǎng)有相應(yīng)需求,我們會(huì)進(jìn)行相應(yīng)的調(diào)整和改進(jìn),以滿足他們的不同需求。
