曉錦源:技術(shù)危機(jī)與技術(shù)進(jìn)步
2022年底,谷歌被危機(jī)感所淹沒了。彼時,以ChatGPT為代表的大模型技術(shù)引發(fā)了一場科技海嘯;而幾乎大多數(shù)人、甚至可能連谷歌自己都認(rèn)為,首先被淹沒的“舊時代殘黨”,會是傳統(tǒng)的搜索引擎。因此,谷歌內(nèi)部拉響了紅色警報,預(yù)示著存在當(dāng)前、緊急、直接的危機(jī)。
然而,這一切似乎只是虛驚一場。
2023年2月,微軟推出新一代搜索引擎New Bing,融入了ChatGPT的AI聊天功能。上線首月,Bing的網(wǎng)頁訪問量增長了15.8%,但市場份額只增加了0.01%;隨后,Bing便徹底失速。
截止至5月,Bing的全球市場份額為6.81%,甚至低于改版之前[2]。
搜索市場啞火是ChatGPT現(xiàn)狀的一個切面。4月,摩根士丹利做過一次抽樣調(diào)查,數(shù)據(jù)顯示僅有19%的人用過ChatGPT,其中一半已“退坑”,而每周使用的活躍用戶僅有8%左右[3]。
3月的一場發(fā)布會上,黃仁勛曾將ChatGPT形容成“iPhone時刻”。如今看來,這個比喻其實相當(dāng)貼切:
一方面,初代iPhone一些設(shè)計確實影響了日后的智能手機(jī),揭開了移動互聯(lián)網(wǎng)時代的序章;但相對應(yīng),初代iPhone產(chǎn)品本身又有很強(qiáng)的局限性,它只有15個應(yīng)用程序、不能拍視頻、不支持彩信等等。和當(dāng)時的諾基亞相比,初代iPhone更像個偏極客風(fēng)格的玩具。真正顛覆手機(jī)市場的,是后續(xù)的iPhone 3G等產(chǎn)品。
眼下,大模型同樣沒能完全擺脫“玩具”的屬性,距離兌現(xiàn)潛力還有不少路要走。但幸運的是,大模型可以摸著石頭過河。
CNN的啟示
上一個從“玩具”活成“工具”的AI,叫卷積神經(jīng)網(wǎng)絡(luò)(CNN)。這個AI算法雖名字拗口,但應(yīng)用場景卻相當(dāng)廣泛且接地氣,包括安防和人臉識別等場景。每一張交通罰單,都有它三分功勞。
卷積神經(jīng)網(wǎng)絡(luò)成為工具的起點,是那個眾所周知的時刻:2012年,“AI教父”辛頓用卷積神經(jīng)網(wǎng)絡(luò)AlexNet,將圖像識別率達(dá)到了一個前所未有的高度,從此一鳴驚人。但不為人知的是,從“玩具”到“工具”,中間其實時隔了32年。
最終成功熬出頭,是因為卷積神經(jīng)網(wǎng)絡(luò)的開發(fā)者做對了兩件事。
最早的卷積神經(jīng)網(wǎng)絡(luò)可追溯至1980年。當(dāng)時,日本科學(xué)家福島邦彥發(fā)明了“新認(rèn)知機(jī)”,它是一個結(jié)構(gòu)巧妙的多層神經(jīng)網(wǎng)絡(luò),成功識別出了手寫的文字,堪稱里程碑式突破。然而,“多層神經(jīng)網(wǎng)絡(luò)”的理念在當(dāng)時有些過于超前了,一些關(guān)鍵技術(shù)缺陷無法解決,新認(rèn)知機(jī)最終沒能在歷史上留下太多筆墨。
直到1989年,在貝爾實驗室工作的計算機(jī)科學(xué)家楊立昆,以新認(rèn)知機(jī)原有設(shè)計為基礎(chǔ),加入了全新的反向傳播算法,這才形成了今天的卷積神經(jīng)網(wǎng)絡(luò)。
楊立昆做對了第一件事情:通過反向傳播算法解決了核心技術(shù)缺陷。至此,卷積神經(jīng)網(wǎng)絡(luò)第一次具備成為工具的潛力。
90年代,楊立昆利用卷積神經(jīng)網(wǎng)絡(luò)開發(fā)了一個識別銀行支票的系統(tǒng),一度拿下了美國10%的市場。不過,彼時的卷積神經(jīng)網(wǎng)絡(luò)并沒法展現(xiàn)全部潛力,與市場上其他技術(shù)拉不開差距,且無法識別文字、數(shù)字以外更復(fù)雜的圖像。
為了解決這一問題,楊立昆曾設(shè)計了一款酷似日后GPU的特殊芯片來訓(xùn)練AI。但隨著他后續(xù)被貝爾實驗室開除,相關(guān)芯片研究也無疾而終,卷積神經(jīng)網(wǎng)絡(luò)再一次被掃進(jìn)了歷史的垃圾箱內(nèi)——直到辛頓把它翻出來。
辛頓做對了第二件事:以一種可工程化的方式,挖掘出了卷積神經(jīng)網(wǎng)絡(luò)的潛力。

改變世界的AlexNet
所謂工程化,指的是產(chǎn)品可落地、可復(fù)用、可迭代。相比于楊立昆80年的研究,辛頓的AlexNet其實并沒有太多技術(shù)上的大革新,而是使用了現(xiàn)成的GPU來訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)。當(dāng)時,GPU主要用于游戲圖形處理,在商店隨時可以買到,卷積神經(jīng)網(wǎng)絡(luò)的落地不再是一件難事。
技術(shù)和工程改造,是卷積神經(jīng)網(wǎng)絡(luò)迭代背后的兩大關(guān)鍵詞。
如今,大模型再度站上相同的歷史節(jié)點,全球的企業(yè)和科學(xué)家已然躍躍欲試,一場改造大模型的科技競賽正式打響。
瓶頸下的突破
6月,法國舉辦了一場關(guān)于AI威脅的公開辯論。楊立昆作為“AI末日說”的堅定反對者,現(xiàn)場拋下了一句驚呆所有人的觀點:“(大模型)缺少一些非常重要的東西,它的智力不僅達(dá)不到人類水平,甚至不如狗。[6]”
楊立昆認(rèn)為,GPT等大模型存在一個關(guān)鍵缺陷:它們只學(xué)習(xí)了文本或者其他單一數(shù)據(jù),對現(xiàn)實世界的了解十分淺顯。人類的知識和文明不全是從書本上獲得的,“書呆子”AI未必有多聰明。
楊立昆
在計算機(jī)科學(xué)家的圈子里,上述觀點得到了不少認(rèn)同。公認(rèn)的“AI教科書”《人工智能:現(xiàn)代方法》作者羅素教授,在接受國內(nèi)媒體采訪時曾做過這么一個比方:
“如果拿著我一張寫滿智慧的紙朗讀,或許會讓聽眾豁然開朗,但沒人會認(rèn)為紙張是聰明的,因為智慧屬于作者。如今的GPT-4,我認(rèn)為介于紙張和作者之間。它在很多場景下表現(xiàn)得優(yōu)異,但如果給它更困難的問題,大模型總是會輸出錯誤的答案。這種情況下,它似乎更像一張紙,而不像一個人類。[7]”
翻譯一下就是,有一些智能,但不夠多。
因此,許多研究員試圖像當(dāng)年的楊立昆那樣,從技術(shù)層面來改造大模型:谷歌DeepMind試圖融入AlphaGo的技術(shù),讓大模型更加智能;而楊立昆自己則提出了“世界模型”的理念,打算讓AI學(xué)習(xí)現(xiàn)實世界的運轉(zhuǎn)邏輯。
不過,技術(shù)攻堅并非是大模型落地的唯一解。
2023年,國內(nèi)的8個礦井已經(jīng)搶先用上了大模型工具——盤古礦山大模型。該工具由華為云研發(fā),僅靠一個大模型平臺,就覆蓋了包括煤礦的采、掘、機(jī)、運、通等業(yè)務(wù)流程下的1000多個細(xì)分場景。僅從試點的效果測算,僅盤古礦山大模型的智能洗選煤功能,就可以讓精煤回收率提升0.1%到0.2%;以1000萬噸焦煤選煤廠為例,每提升0.1%精煤產(chǎn)率可增加1000萬元/年利潤。
除生產(chǎn)力的提升之外,盤古礦山大模型還有望減少安全事故的發(fā)生:大模型的監(jiān)測系統(tǒng)可以一天24小時不間斷巡檢,及時發(fā)現(xiàn)礦井中的異常狀況。
過去,煤礦存在著生產(chǎn)場景復(fù)雜、人員素質(zhì)參差不齊等問題,很難用AI技術(shù)來改造。隨著盤古礦山大模型取得突破,AI才有機(jī)會真正成為一項生產(chǎn)力工具。

上述所有突破,其實都發(fā)生在大模型軍備競賽的另一個“隱藏戰(zhàn)場”——工程競賽。
改造大模型
礦山大模型能夠融入煤礦生產(chǎn),源自其對大模型技術(shù)的工程改造:華為云針對具體的工業(yè)場景,設(shè)計了一套由L0-L1-L2三個層級構(gòu)成的大模型平臺。L0層是通用大模型,囊括了類似GPT-4的大語言模型,以及其他多模態(tài)大模型;L1是針對工業(yè)場景的大模型,而L2則是面向更加細(xì)分場景的推理模型。

這一設(shè)計的目的,是為了解決三個具體的痛點:
其一,工業(yè)場景下的數(shù)據(jù)并不如互聯(lián)網(wǎng)那么豐富。大模型技術(shù)固然先進(jìn),但需要海量數(shù)據(jù)作為支撐;但工業(yè)數(shù)據(jù)的體量,有時未必能支撐起一個大模型。
因此,華為云而是利用了L0層的通用大模型,讓它額外去學(xué)習(xí)一些行業(yè)數(shù)據(jù),打造一個行業(yè)大模型。因為通用大模型已經(jīng)具備較強(qiáng)的通用能力,相當(dāng)于一個剛剛畢業(yè)的大學(xué)生;只需要再教授一些專業(yè)知識,大學(xué)生也能很快上手工作。
其二,通用大模型面對一些具體難題表現(xiàn)并不好。對此,盤古大模型通過增加L1、L2兩個層級來充當(dāng)大模型的“手腳”,以解決工業(yè)場景下的具體工作。而L0的通用大模型,則充當(dāng)了“大腦”的功能。它能夠自動分解任務(wù),并調(diào)用“手腳”分布處理復(fù)雜環(huán)境下的作業(yè),實現(xiàn)了長短互補(bǔ)。
其三,是新產(chǎn)生的數(shù)據(jù)難以再利用的難題。對此,華為云給盤古大模型設(shè)計了一個完整的反饋鏈條,通過記錄各行業(yè)的處理日志等數(shù)據(jù),反哺到通用大模型訓(xùn)練數(shù)據(jù)語料中,進(jìn)而不斷提升其智能。

在這三層架構(gòu)的基礎(chǔ)上,華為云還設(shè)計了L0.5層。簡單來說,L0.5層匯總了L0層通用大模型的各項能力,比如文字問答、寫代碼、文生圖、圖像分割等等,相當(dāng)于一個“AI技能商店”。由于不同行業(yè)場景下,對大模型需求截然不同;有了L0.5層之后,企業(yè)便可以根據(jù)自身業(yè)務(wù)需求挑選對應(yīng)的能力,進(jìn)而開發(fā)出更適配的大模型工具。
工程端發(fā)力的同時,華為云也沒有放棄技術(shù)層面的研究,畢竟好的算法能讓工程落地效果事半功倍。華為的大模型研究始于2019年,并為此招募了一支平均年齡不到30歲、50%為博士的團(tuán)隊。圍繞Transformer架構(gòu),華為云改造出了許多獨特的算法。
例如在2022年底,華為云在一篇論文中發(fā)表了全新的盤古氣象大模型——這是世界上第一個超越傳統(tǒng)天氣預(yù)測方式的AI。論文中提到,在預(yù)測熱帶風(fēng)暴的任務(wù)中,盤古氣象大模型的預(yù)測精度顯著超過了歐洲氣象中心的高精度預(yù)報。

7月6日,權(quán)威科學(xué)期刊《Nature》的正刊收錄了盤古氣象大模型的論文。審稿人評價稱,“盤古氣象大模型讓人們重新審視了氣象預(yù)報模型的未來。”
毫無疑問,華為云正在成為大模型競賽中一個不可忽視的玩家。
工程的戰(zhàn)爭
過去這半年,隨著越來越多的退休企業(yè)家們先后投大模型技術(shù),國內(nèi)的科技媒體們給這股熱潮取了個新名字——“百模大戰(zhàn)”。這個名字改編自曾經(jīng)的“百團(tuán)大戰(zhàn)”:彼時,數(shù)十家互聯(lián)網(wǎng)初創(chuàng)公司正圍繞著團(tuán)購市場打的不可開交。如今,一眾AI創(chuàng)業(yè)公司正埋頭研發(fā)大模型算法,替日后的短兵相接做好準(zhǔn)備。
然而,AI不是互聯(lián)網(wǎng),模型算法也不能簡單和互聯(lián)網(wǎng)產(chǎn)品劃等號。許多人只將注意力放在了一篇篇論文上,卻忽視了大模型競賽比拼的,實際還有工程能力。
AI由算法、數(shù)據(jù)以及算力三大要素構(gòu)成,后兩個因素實際對企業(yè)的工程能力有很高要求。90年代,楊立昆正是因為只有算法沒有算力,因此始終沒能邁出最關(guān)鍵的一步。
如今,數(shù)據(jù)和算力同樣對大模型能否落地起到了關(guān)鍵性作用:
數(shù)據(jù)收集、篩選是第一道坎。雖然互聯(lián)網(wǎng)上存在著近乎無限的內(nèi)容,但其中也包含著大量低質(zhì)、無效的內(nèi)容。如果教科書粗制濫造,AI不免越學(xué)越“笨”。
如果具體到一些現(xiàn)實場景,數(shù)據(jù)收集往往會更加困難。前文曾提到,工業(yè)領(lǐng)域的數(shù)據(jù)本就不如互聯(lián)網(wǎng)那么豐富。且對企業(yè)而言,工業(yè)數(shù)據(jù)等同于公司機(jī)密,顯然不可能輕易對外公開,進(jìn)一步拉高了數(shù)據(jù)的門檻。
至于算力,隨著英偉達(dá)的王牌產(chǎn)品H100/A100對中國禁售,國內(nèi)的企業(yè)不得不尋找下位替代。對此,英偉達(dá)很貼心地推出了特供版的H800。相比于H100,H800保留了其大多數(shù)的配置,但在傳輸速率上一刀砍了1/3——這意味著用H800訓(xùn)練大模型需要花費更多時間,注定比國外同行慢一步。
正因為如此,華為從2018年涉足AI領(lǐng)域之初,便提出了全棧自主,全場景布局的AI戰(zhàn)略。
過去數(shù)年,華為云盤古大模型學(xué)習(xí)了上百TB的百科知識、文學(xué)作品、程序代碼等文本數(shù)據(jù),以及數(shù)10億張帶文本標(biāo)簽的互聯(lián)網(wǎng)圖像。除了學(xué)習(xí)大量通用知識以外,盤古大模型還學(xué)習(xí)了10多個行業(yè)的公開數(shù)據(jù),涵蓋金融、政務(wù)、氣象、醫(yī)療、健康、互聯(lián)網(wǎng)、教育、汽車、零售等,每個行業(yè)數(shù)據(jù)量超過500億 tokens(一段文本中的最小單位,是構(gòu)建神經(jīng)網(wǎng)絡(luò)模型的基本單位之一)。
在這基礎(chǔ)上,華為云還向平臺上的開發(fā)者,推出了盤古大模型工程化平臺,提供了數(shù)據(jù)處理、模型訓(xùn)練和應(yīng)用開發(fā)三大功能,以降低大模型開發(fā)難度。過去,開發(fā)一個GPT-3規(guī)模的行業(yè)大模型,通常需要5個月;隨著工程化平臺的推出,開發(fā)周期能縮短至原來的1/5。
而在算力層面,華為云過去訓(xùn)練盤古大模型時,曾使用了上千個昇騰芯片持續(xù)訓(xùn)練了數(shù)月;如今,華為云發(fā)布了昇騰AI云服務(wù),支持億參數(shù)規(guī)模的大模型訓(xùn)練一個月以上不中斷。
昇騰AI云服務(wù)的算力能實現(xiàn)穩(wěn)定輸出,離不開其華為云數(shù)據(jù)中心在冷卻系統(tǒng)上的創(chuàng)新。數(shù)據(jù)中心是個典型的能耗大戶,對散熱高度剛需,并催生了一個百億規(guī)模的市場。華為云數(shù)據(jù)中心的全液冷設(shè)計,能夠做到分類分級按需冷卻,降低能耗。
華為云還通過昇騰AI云服務(wù)幫助更多企業(yè)解決算力難題——今天,華為云宣布單集群2000P Flops算力的昇騰AI云服務(wù)在華為云的烏蘭察布和貴安AI算力中心同時上線。
如今,華為已是國內(nèi)少有實現(xiàn)從AI芯片、AI框架、全流程支持MLOps的AI平臺ModelArts,再到基礎(chǔ)大模型全棧自主的企業(yè)。
當(dāng)人們爭論誰才是中國版OpenAI時候,華為云已經(jīng)開始以一種低調(diào)、務(wù)實的方式改變世界了。
尾聲
人們在記述科技史的時候,或多或少都會夾雜一些個人英雄主義的色彩。
大模型引起轟動之后,OpenAI的創(chuàng)始人阿爾特曼便成為了全球矚目的焦點。過去幾個月,阿爾特曼沿著歐亞大陸四處奔波,幾乎將各國的領(lǐng)導(dǎo)人見了個遍,也因此收獲了“AI政治家”的戲稱。
毫無疑問,一項新技術(shù)的開拓者固然意義重大。例如改造蒸汽機(jī)的瓦特,將人類社會推向了工業(yè)時代,并催生了一系列社會變革;而OpenAI掀起的大模型革命,大概率將再一次重塑社會。但讓普通人生活發(fā)生翻天覆地變化的,其實是那些令新技術(shù)走進(jìn)商場的人。直到喬治·斯蒂芬森發(fā)明的蒸汽火車開始在鐵軌上奔馳,工業(yè)的時代才真正意義上到來了。
那些真正重塑普通人生活的企業(yè)和個人,同樣值得喝彩。