蘋果、高通、Google 都押注的未來芯片,到底是什么?| 硬哲學(xué)
在體驗 Pixel 6 Pro 的這段時間里,除了拍照,我很少有感覺到這臺被 Google 稱作「最聰明的 Pixel 手機」有什么過機之處,直到一個早上,手機鬧鐘把我吵醒。

和普通手機滑動關(guān)閉鬧鐘的操作不同,Pixel 6 Pro 提示我可以說「Snooze(再歇一會)」或者「Stop(停止)」來控制鬧鐘,而當(dāng)我小心翼翼地說出「Stop」后,鬧個不停的手機果然立刻安靜了下來。
這是個微不足道的小功能,卻讓我每個被鬧鐘吵醒的早晨都能保持一個好心情。
我終于再也不用強撐睡意胡亂找手機,只需要一句話就能讓催命般的手機識趣閉嘴,這是我第一次感覺手機能夠「理解」我。

「聽懂人話」的秘密,就藏在不起眼的 TPU 之中。
無處不在的 AI 計算

同在手機的 SoC 上,NPU 的存在感和 CPU、GPU 比起來總要弱上一大截。
這個專注于神經(jīng)網(wǎng)絡(luò)運算的處理器甚至沒有一個統(tǒng)一的名字:在麒麟芯片上叫 NPU,在 A 系列仿生芯片上叫 神經(jīng)計算引擎(Neural Engine);Google 將其命名為 TPU,聯(lián)發(fā)科又認(rèn)為用于 AI 計算的它應(yīng)該叫 APU……
盡管這些芯片的名字五花八門,架構(gòu)和原理也不盡相同,但它們的目的大抵相似——加速機器學(xué)習(xí),提高手機的人工智能計算能力。

如果你有關(guān)注手機處理器的性能,你會發(fā)現(xiàn)無論是 iPhone 的 A 系列芯片還是 Android 旗艦級的驍龍芯片,在近兩年內(nèi) CPU 的算力提升都十分有限,性能「擠牙膏」的現(xiàn)象越來越嚴(yán)重。
與之相比,AI 算力成了更多廠商愿意提及的參數(shù)指標(biāo)。以 A 系列芯片為例,蘋果的 A14 仿生芯片比上一代有了近乎翻倍的峰值算力提升,每秒可執(zhí)行運算 11 萬億次。

一年后的 A15 仿生芯片在此基礎(chǔ)上依然能帶來超過 40% 的大幅提升,每秒可執(zhí)行運算高達 15.8 萬億次。
Android 陣營的 AI 算力進步也非常可觀,在蘇黎世理工大學(xué)推出的 AI 性能測試榜上,首次引入 NPU 的麒麟 970 AI 性能跑分為 23600 分,四年后 Google Tensor 芯片以 214700 的高分登頂,而麒麟 9000、驍龍 888 的成績也都達到了 160000 分左右。
既然 AI 算力近乎指數(shù)增長,為什么我們很難感覺到有什么變化?AI 功能這個聽起來略顯高深的詞是不是離我們太遠(yuǎn)了?

事實上,你每一次解鎖手機、喚醒語音助手、甚至隨手按下快門,都是一次與 AI 計算的親密接觸。
而 NPU 就像一個黑匣子,它讓 AI 的計算過程快得幾乎不存在,讓你察覺不到科技,卻又被更自然的人機交互包圍。Google 語音助理的進化是一個很好的例子。

自 2014 年 Siri 加入「Hey, Siri」的語音喚醒功能后,喚醒詞幾乎和語音助手綁定,每次與語音助手對話,我們都要不厭其煩地叫喚它們的名字:Siri、小愛同學(xué)、小布、小藝……如果語音環(huán)境很嘈雜,這個尷尬的過程可能還要重復(fù)好多次。

這是因為,出于功耗考慮,手機處理器不能浪費算力長時間在后臺解析用戶的每一句話,這時就需要一個低功耗并且只識別喚醒詞的語音接收器常駐工作。
當(dāng)收到喚醒詞信號時,才調(diào)動主處理器聆聽用戶的下一步指令。

不過,雖然這樣可以實現(xiàn)低功耗語音喚醒,但這距離科幻電影里 AI 助手隨叫隨到的理想形態(tài)還有點距離,這就像鋼鐵俠在戰(zhàn)斗前還要說一句「嘿,賈維斯」一樣,人機交互有點別扭。
Google 在 Pixel 6 系列上推出的「快捷指令」功能讓這種存在于科幻電影的自然交互照進了現(xiàn)實。
正如文章開頭提到那樣,通過「快捷指令」用戶不用再喊「OK Google」等的喚醒詞,也能喚醒 Google 助理執(zhí)行關(guān)閉鬧鐘、接聽電話等指定任務(wù)。

要在嘈雜的聲音環(huán)境下定向分離人聲,手機就需要有更高精度的聲紋識別能力,利用更加復(fù)雜的卷積神經(jīng)網(wǎng)絡(luò)算法準(zhǔn)確捕捉并識別用戶的口令。
而 Google 專為 AI 計算設(shè)計的 TPU 芯片正好滿足了這種 AI 算力需求,這種自然的語音交互最終在 Pixel 6 系列上得以實現(xiàn)。

基于神經(jīng)處理單元的 NPU 在圖像、語音識別和處理方面比傳統(tǒng) CPU 效率要高得多,手機廠商由此可以開發(fā)出諸多如計算攝影、文字識別等功能,豐富系統(tǒng)的軟件功能。

在蘋果最新的 iOS15 上,不少新特性就是基于神經(jīng)計算引擎而設(shè)計的,例如 FaceTime 加入的空間音頻和人像模式、實時的文本提取和翻譯、相冊直接搜索照片中的文字、Siri 離線運行等。
由于這些功能對 AI 算力有一定的要求,蘋果還強調(diào)如果 SoC 芯片不是 A12 仿生往后的型號,那么即便升級到 iOS15 這些功能都不能體驗。

再比如 MIUI13 上的智能識別證件照添加水印、人臉驗證隱私保護等功能,HarmonyOS 的隔空手勢、隨頭轉(zhuǎn)動,同樣是利用了 AI 圖像識別、文字 OCR 等技術(shù)開發(fā)。

AI 功能開始成為了我們?nèi)粘J謾C體驗重要的一部分,原本被認(rèn)為無關(guān)緊要的 NPU 成了組成系統(tǒng)軟件體驗不可或缺的一部分。
為什么需要 AI 計算芯片?
和手機的其他零件相比,NPU 登場的時間要晚得多。
2017 年 9 月華為在柏林 IFA 展發(fā)布的麒麟 970 是首顆集成 NPU 的 SoC,同一時期,蘋果發(fā)布了首次搭載神經(jīng)計算引擎的 A11 仿生芯片,兩個陣營對 AI 計算領(lǐng)域的關(guān)注出奇同步。
AI 功能的出現(xiàn)看似突兀,但這其實是智能手機形態(tài)發(fā)展過程中自然演化的結(jié)果。

《連線》雜志與蘋果副總裁 Tim Millet 關(guān)于 A 系列芯片的訪談中提到,在 iPhone X 發(fā)布的數(shù)年前,蘋果的一些工程師就提出了利用機器學(xué)習(xí)算法讓 iPhone 的攝像頭變得更智能的想法。
正是這個想法,讓定義了 iPhone 未來十年形態(tài)的 iPhone X 有了落地的可能。轉(zhuǎn)向全面屏的 iPhone X 需要一個新的安全機制取代原本占據(jù)下巴的 Touch ID,并且在準(zhǔn)確度、解鎖速度都不能落后前者,為了實現(xiàn)這些點,蘋果轉(zhuǎn)向了 3D 結(jié)構(gòu)光面容識別。

每次點亮 iPhone 進行解鎖,位于劉海中的深感攝像頭都會通過成千上萬個點創(chuàng)建一個深度圖,與儲存的人臉數(shù)據(jù)比對完成解鎖,而這個收集、創(chuàng)建、校對的過程需要控制在瞬息之間,更重要的是,功耗必須控制在一個足夠低的水平。
根據(jù)蘋果公布的數(shù)據(jù),iPhone 用戶每日平均解鎖次數(shù)為 80 次,如果每次解鎖都要調(diào)動 CPU 或 GPU 做高功耗的圖形運算,對手機續(xù)航而言會是個相當(dāng)大的挑戰(zhàn)。

而多核架構(gòu)的神經(jīng)計算引擎可以同時執(zhí)行大量運算,并且經(jīng)過深度機器學(xué)習(xí),它可以像人腦一樣識別和判斷人面信息,利用它實現(xiàn)人臉識別在功耗和性能上比傳統(tǒng) CPU 都有著不小的優(yōu)勢。
「如果沒有神經(jīng)計算引擎,我們不可能做到這一點」,Tim Millet 在訪談中提到。
隨著核心數(shù)的增多,神經(jīng)計算引擎算力也會隨之大幅提升,其應(yīng)用也越來越廣。

例如 A13 仿生芯片的 8 核神經(jīng)計算引擎為 iPhone11 系列帶來了 Deep Fusion 和夜景模式功能,通過多張融合提升照片的清晰度和細(xì)節(jié);A14 仿生芯片的神經(jīng)計算引擎提升到了 16 核,能夠在拍攝時同時調(diào)用多枚攝像頭,實現(xiàn)順滑的變焦體驗。

總的來說,神經(jīng)計算引擎等 NPU 的出現(xiàn),可以很好地分擔(dān) CPU 或 GPU 的算力壓力,通過對大數(shù)據(jù)進行高效的并行分析和計算,提取出有意義的結(jié)果,用更自然的處理能力改善我們的體驗。
AI 將再次定義智能手機
于蘋果擔(dān)任擔(dān)任機器學(xué)習(xí)和人工智能戰(zhàn)略高級副總裁的 John Giannandrea 在一次采訪時曾經(jīng)提到,他相信在未來幾年內(nèi) iOS 或者蘋果軟件生態(tài)的所有功能都會被機器學(xué)習(xí)改變。
我認(rèn)為蘋果一直代表著創(chuàng)造力和技術(shù)的交匯點。當(dāng)你考慮建立智能體驗時,將應(yīng)用程序、框架、再到芯片給垂直整合起來非常重要…… 我認(rèn)為這是一個旅程,這是我們擁有的計算設(shè)備的未來,它們變得智能,然后這份智能會隱于無形。
初代 iPhone 用觸摸屏交互、隨時隨地連接互聯(lián)網(wǎng)重新定義了手機,手機自此出現(xiàn)了「功能機」和「智能機」的分支。
當(dāng)智能手機的功能趨同化,所謂的「智能」——發(fā)微信、放音樂、拍照、看新聞等等在某種意義上又變回功能。

智能手機需要重新被定義,新的智能應(yīng)該被解讀為「能夠理解人」的手機,它能識別你看見的世界,聽懂你的每一句指令,根據(jù)環(huán)境作動態(tài)調(diào)整,這些都需要 AI 芯片的深度參與。
隨著手機硬件供應(yīng)鏈日趨透明,中高端手機核心配件的差異性變得越來越小,軟件功能得到了越來越多廠商的重視,這就像料理一樣,硬件供應(yīng)鏈提供了制作一道好菜的「基礎(chǔ)食材」,而想要烹飪出獨此一家的味道,優(yōu)秀的軟件體驗才是那個關(guān)鍵的「調(diào)味料」。
如今我們已經(jīng)擁有足夠清晰屏幕以及能拍攝百米遠(yuǎn)風(fēng)景的攝像頭,但智能手機的體驗并不僅限于常規(guī)的顯示、拍照。

它應(yīng)該讓你同時拍攝多焦段的照片,讓你在拍攝時不用因為匆忙調(diào)焦而錯過風(fēng)景;應(yīng)該能夠在取景框中就能實時預(yù)覽夜景或 HDR 效果,成像時不用再等待;它甚至應(yīng)該成為一個能夠陪伴你旅行的翻譯器,即便是網(wǎng)絡(luò)不佳也能離線完成實時翻譯工作。
AI 是幫我們實現(xiàn)這些功能的不二之選,為了更深度地定制軟件功能,像 Google、OPPO 等更多的手機廠商都開始參與 NPU 芯片的設(shè)計,以追趕蘋果、華為等先行者的步伐。

與此同時,強大的 AI 算力也不再是自研芯片玩家的專利,高通驍龍 8 和天璣 9000 都將 AI 算力視為了提升的重點,在 AI 性能跑分都已超越 Google 的 Tensor,三星最近發(fā)布的 Exynos 2200 也著重提升了 NPU 性能,帶來翻倍的提升。
芯片巨頭在 AI 性能的集中發(fā)力,讓移動端 AI 芯片看起來就像在經(jīng)歷「新摩爾定律」。
除了性能增長的速度,AI 芯片的普及速度也非??捎^,根據(jù)統(tǒng)計機構(gòu) Counterpoint 的統(tǒng)計,2017 年內(nèi)置 AI 芯片的手機數(shù)量僅占市場份額的 3%,而 2020 年這個數(shù)據(jù)已經(jīng)達到 35%。
在未來還會有更多的手機支持 AI 加速計算,這意味著利用機器學(xué)習(xí)開發(fā)手機應(yīng)用會變成新的常態(tài),事實上在抖音、微信等國民級 app 上,就已經(jīng)出現(xiàn)了利用機器學(xué)習(xí)實現(xiàn)背景模糊、一鍵剪片等 AI 功能。

隨著手機廠商和第三方開發(fā)的參與,AI 應(yīng)用經(jīng)過不斷深化,智能手機的形態(tài)可能也會隨之發(fā)生變化,成為一個為愉悅體驗而生的軟硬件共生體。
屆時,智能手機形態(tài)的話語權(quán)爭奪戰(zhàn),也將從供應(yīng)鏈的管理慢慢地向用戶大數(shù)據(jù)的掌控轉(zhuǎn)移。
