GPT時(shí)代,尋找訊飛星火大模型的算力支點(diǎn)
作者 |?辰紋
來(lái)源 |?洞見(jiàn)新研社

大模型的“涌現(xiàn)”還在持續(xù)。
5月底舉行的中關(guān)村論壇上,有專家披露,中國(guó)10億級(jí)參數(shù)規(guī)模以上的大模型已經(jīng)發(fā)布了79個(gè),剛剛結(jié)束的世界人工智能大會(huì)上,又有一批大模型批量發(fā)布。
大模型的熱度居高不下,世界人工智能大會(huì)甚至還設(shè)置了一個(gè)“邁向通用人工智能”主題的展區(qū),集中展示國(guó)內(nèi)外總計(jì)30多款大模型。
我們看到的大模型“涌現(xiàn)”是表面,背后到底是什么促成了大模型的“涌現(xiàn)”呢?
昇騰人工智能產(chǎn)業(yè)高峰論壇上,科大訊飛高級(jí)副總裁、認(rèn)知智能全國(guó)重點(diǎn)實(shí)驗(yàn)室主任胡國(guó)平現(xiàn)場(chǎng)演示了星火大模型的各項(xiàng)能力,由星火大模型再進(jìn)行延伸,算力底座的支撐作用成為大模型競(jìng)爭(zhēng)的焦點(diǎn)。
1.后發(fā)先至,星火大模型擠進(jìn)第一陣營(yíng)
不得不說(shuō),科大訊飛的嗅覺(jué)還是很敏銳的。
OpenAI去年11月30日發(fā)布ChatGPT后僅僅15天(12月15日),科大訊飛就啟動(dòng)了“1+N”認(rèn)知智能大模型的專項(xiàng)攻關(guān),5個(gè)多月后(5月6日),星火認(rèn)知大模型正式發(fā)布,一個(gè)月后的6月9日,星火認(rèn)知大模型V1.5發(fā)布。
根據(jù)科大訊飛的計(jì)劃,今年內(nèi)星火大模型還將有兩次重大升級(jí),分別是:
8月15日,代碼能力升級(jí)以及多模態(tài)交互能力提升;
10月24日,實(shí)現(xiàn)通用模型對(duì)標(biāo)ChatGPT,中文超越ChatGPT的當(dāng)前版本,英文能做到相當(dāng)水平,并在教育、醫(yī)療等領(lǐng)域做到業(yè)界領(lǐng)先。
一個(gè)值得關(guān)注的點(diǎn),與其他大模型有所不同,星火認(rèn)知大模型采用“1+N”的架構(gòu),其中“1”指的是通用認(rèn)知智能大模型,“N”就是大模型在垂直領(lǐng)域的落地。
根據(jù)胡國(guó)平的分享,目前星火大模型已經(jīng)在教育、辦公、汽車、醫(yī)療、工業(yè)等領(lǐng)域落地,在多個(gè)行業(yè)場(chǎng)景實(shí)現(xiàn)了從0到1的創(chuàng)新應(yīng)用。

光說(shuō)不練假把式,星火大模型的實(shí)際表現(xiàn)到底如何,我們一起來(lái)看看胡國(guó)平的現(xiàn)場(chǎng)演示。
首先測(cè)試的是星火大模型的文本生成能力,胡國(guó)平出了一個(gè)“用詩(shī)歌的方式暢想通用人工智能實(shí)現(xiàn)后的世界”的任務(wù),大模型隨即給出回答——“通用人工智能來(lái)臨日,世界改變?nèi)顼L(fēng)起,智慧無(wú)邊觸手可及,人類生活煥然一新,自動(dòng)駕駛馳騁天地……”
語(yǔ)言理解方面,星火大模型不僅能夠理順上下文的關(guān)系,甚至對(duì)于類似“寧死不屈”和“能屈能伸”這類詞匯,也能夠清楚的進(jìn)行辯證理解和場(chǎng)景化的應(yīng)用。
知識(shí)問(wèn)答維度,星火大模型能夠基于搜索結(jié)果之上,運(yùn)用大模型的語(yǔ)言理解和綜合表達(dá)能力給出更有針對(duì)性的回答。
邏輯推理是考驗(yàn)大模型智慧水平的關(guān)鍵任務(wù),訊飛星火經(jīng)過(guò)兩個(gè)版本的迭代,現(xiàn)在對(duì)于“農(nóng)夫帶著狼、羊、菜一起過(guò)河”這種組合限制下的復(fù)雜推理都能非常好的完成。
根據(jù)胡國(guó)平的介紹,星火大模型的數(shù)學(xué)能力和代碼能力在發(fā)布后也有了長(zhǎng)足進(jìn)步,其中數(shù)學(xué)能力對(duì)于高中階段涉及到的幾何和代數(shù)問(wèn)題都能按照步驟準(zhǔn)確的給出答案,代碼能力也有了新的突破,特別是Python的代碼生成能力已經(jīng)達(dá)到了比較高的水平。
最后演示的多模態(tài)能力,根據(jù)胡國(guó)平的任務(wù)指令,星火大模型很快生成了一段散文文本,同時(shí)使用一個(gè)女生形象的虛擬人主播朗誦這篇散文。
很顯然,星火大模型的表現(xiàn)非常出色,經(jīng)科學(xué)、系統(tǒng)地評(píng)測(cè),“訊飛星火認(rèn)知大模型”在國(guó)內(nèi)可測(cè)的現(xiàn)有系統(tǒng)中處于領(lǐng)先水平。
星火大模型從立項(xiàng)到發(fā)布,再到迭代,每個(gè)節(jié)點(diǎn)留給研發(fā)訓(xùn)練的時(shí)間都非常短,但就其展現(xiàn)出來(lái)的能力和效果來(lái)看,卻能穩(wěn)居中國(guó)主要大模型的第一梯隊(duì),在其背后到底藏著哪些秘密呢?
2.驚艷之余,看清昇騰算力底座的成色
除了科大訊飛多年來(lái)在認(rèn)知智能領(lǐng)域形成了深厚的技術(shù)儲(chǔ)備和積累之外,由昇騰AI支撐的算力底座尤為關(guān)鍵。
大模型訓(xùn)練首先要求滿足的條件就是大算力。
有行業(yè)專家做過(guò)測(cè)算,完成一個(gè)千億參數(shù)級(jí)別的大模型,例如GPT-3需要314 ZFLOPs算力的模型訓(xùn)練,當(dāng)單卡只有312 TFLOPS算力時(shí),用一張卡訓(xùn)練一個(gè)模型要耗時(shí)32年。
因而引入分布式訓(xùn)練解決方案,通過(guò)建立AI芯片集群的方式來(lái)加速模型訓(xùn)練成為當(dāng)前行業(yè)的主流。
可是,當(dāng)芯片集群越來(lái)越大,由于大模型被并行切分到集群,模型切片間會(huì)產(chǎn)生大量的多卡通信、節(jié)點(diǎn)通信,此時(shí)對(duì)集群的通信能力也提出了更高的要求。
由此可見(jiàn),大模型訓(xùn)練既考驗(yàn)算力的大小,還考驗(yàn)算力集群工程化、系統(tǒng)化的能力。
還是以星火大模型為例,整個(gè)模型訓(xùn)練的時(shí)間很短,而其迭代的速度又很快,這也意味著在算力之外,模型訓(xùn)練的穩(wěn)定性和可擴(kuò)展性也要有很好的表現(xiàn)。
我們來(lái)看看昇騰AI集群是如何做到的。
首先,整機(jī)系統(tǒng)升級(jí)后,把計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)、能源這些要素全部整合在一起,相當(dāng)于把AI數(shù)據(jù)中心打造成一臺(tái)AI超級(jí)計(jì)算機(jī),實(shí)現(xiàn)了能效的倍增。
其次,基于背板總線的架構(gòu)設(shè)計(jì),實(shí)現(xiàn)全節(jié)點(diǎn)盲插和精準(zhǔn)液冷散熱,具備更大的算力密度,以及低于1.15的PUE,讓算力中心更加綠色,并可實(shí)現(xiàn)更加靈活的擴(kuò)展和部署。
最后,通過(guò)節(jié)點(diǎn)、機(jī)柜、集群、作業(yè)級(jí)的多級(jí)可靠設(shè)計(jì),實(shí)現(xiàn)了系統(tǒng)級(jí)故障的可診斷、可預(yù)測(cè)、可衡量、可恢復(fù),能保持30天以上的穩(wěn)定訓(xùn)練周期,實(shí)現(xiàn)高可用性。

其實(shí),早在2019年,昇騰AI就已經(jīng)開始了千卡集群的探索,當(dāng)時(shí)只有4000張卡的規(guī)模,于2020年落地商用;剛剛結(jié)束的昇騰人工智能產(chǎn)業(yè)高峰論壇上,華為宣布昇騰AI集群全面升級(jí),集群規(guī)模已經(jīng)擴(kuò)展到16000張卡,這也是說(shuō),一個(gè)1750億參數(shù),100B數(shù)據(jù)的大模型,大概半天時(shí)間就可以完成一次訓(xùn)練。
事實(shí)上,支持星火大模型研發(fā)和訓(xùn)練只是昇騰AI能力的一個(gè)縮影,更高層級(jí)中,昇騰AI還廣泛參與到全國(guó)20多個(gè)人工智能計(jì)算中心的建設(shè),包括武漢、北京、西安、成都、大連、沈陽(yáng)等在內(nèi),已經(jīng)有7個(gè)城市獲得了國(guó)家的認(rèn)可,成為科技部首批國(guó)家新一代人工智能公共算力開放創(chuàng)新平臺(tái)。
與此同時(shí),昇騰AI還支持了近一半的中國(guó)原創(chuàng)模型的開發(fā),根據(jù)今年5月份發(fā)布的《中國(guó)人工智能大模型地圖研究報(bào)告》統(tǒng)計(jì),國(guó)內(nèi)10億參數(shù)規(guī)模以上的大模型,有30多個(gè)是基于昇騰原生的開源和適配,覆蓋了NLP、多模態(tài)、云、語(yǔ)音等多個(gè)領(lǐng)域。
如此多的項(xiàng)目,讓昇騰AI積累了大量的經(jīng)驗(yàn),因而在推動(dòng)大模型應(yīng)用落地方面,昇騰AI不光是算力提供者,還從效率出發(fā),成為大模型開發(fā)流程的塑造者。
大模型的開發(fā)模式,最開始時(shí)是傳統(tǒng)的API-based,昇騰AI通過(guò)提供一系列的大模型開發(fā)套件,走向了model-based,在這套開發(fā)模式下,只需要幾十行代碼就可以實(shí)現(xiàn)全流程的腳本開發(fā),降低大模型開發(fā)門檻。
很顯然,面對(duì)大模型開發(fā)訓(xùn)練的諸多難點(diǎn)和挑戰(zhàn),昇騰AI迎難而上,選擇了正面硬鋼,于昇騰AI自身而言,是大模型時(shí)代算力競(jìng)爭(zhēng)的提前占位;于大模型行業(yè)整體而言,則是國(guó)產(chǎn)大模型架構(gòu)在自主創(chuàng)新的軟硬件基礎(chǔ)之上,是國(guó)家科技實(shí)力的真實(shí)表現(xiàn)。
3.創(chuàng)新路上,中國(guó)AI需要更多同行者
大模型時(shí)代才剛剛開啟,未來(lái)還有很多不確定性,唯一確定的是,對(duì)算力會(huì)有著持續(xù)的需求。
胡國(guó)平預(yù)測(cè)了大模型發(fā)展的三個(gè)趨勢(shì)。
第一個(gè)是,未來(lái)會(huì)有更多新的大模型出現(xiàn),現(xiàn)有的大模型在不斷迭代之后,數(shù)據(jù)規(guī)模會(huì)有更大的增長(zhǎng),加之應(yīng)用端的用戶數(shù)量的增加,由此會(huì)帶來(lái)更大的算力需求。
第二個(gè)是,隨著大模型能力的提升,能夠與更多的傳感器、執(zhí)行器產(chǎn)生數(shù)據(jù)和智慧的輸入與輸出,大模型的邊界會(huì)進(jìn)一步擴(kuò)散,此時(shí)對(duì)算力會(huì)有更大的消耗。
第三個(gè)是,未來(lái)或?qū)⒚總€(gè)人都會(huì)擁有自己的專屬大模型或者助理,圍繞著個(gè)人的學(xué)習(xí)和生活,個(gè)人助理每時(shí)每刻都在進(jìn)化和同步升級(jí),這對(duì)極低功耗的芯片和系統(tǒng)解決方案提出了挑戰(zhàn)。
不難看出,這三個(gè)趨勢(shì)都與算力密切關(guān)聯(lián),在胡國(guó)平看來(lái),大模型與大腦的原理層類似,都通過(guò)超千億神經(jīng)元組合在一起,接受輸入的刺激,再產(chǎn)生智慧的輸出,有著相似的智能激發(fā)和運(yùn)行機(jī)制。
這也意味著,“大腦能做的事情,大模型也能實(shí)現(xiàn)”,大模型具有無(wú)限的潛力,算力底座的探索也就沒(méi)有止境。
當(dāng)然,要做好大模型,光有算力也不行。
中國(guó)科學(xué)院院士、清華大學(xué)計(jì)算機(jī)系教授、清華大學(xué)人工智能研究院名譽(yù)院長(zhǎng)張鈸院士認(rèn)為,Chat GPT的成功并不是僅僅歸功于數(shù)據(jù)、算力和算法三個(gè)要素,而是要強(qiáng)調(diào)四個(gè)要素,分別是知識(shí)、數(shù)據(jù)、算法和算力。
也就是說(shuō),我們要從文本中獲取數(shù)據(jù),然后從數(shù)據(jù)中獲取到知識(shí),出現(xiàn)這個(gè)轉(zhuǎn)變才有了現(xiàn)在的ChatGPT,而這些都建立在“基于詞嵌入的文本語(yǔ)意表示””基于注意機(jī)制的轉(zhuǎn)換器”“基于預(yù)測(cè)下一個(gè)詞的自監(jiān)督學(xué)習(xí)”這三項(xiàng)技術(shù)的突破才得以實(shí)現(xiàn)的。
由此看來(lái),數(shù)據(jù)、算法、算力這三個(gè)要素看似獨(dú)立,但在大模型中又關(guān)聯(lián)緊密,因而產(chǎn)業(yè)生態(tài)建設(shè)的重要性凸顯出來(lái)。
昇騰AI產(chǎn)業(yè)生態(tài)發(fā)展迅速,截至目前為止,已經(jīng)發(fā)展了30多家硬件伙伴、1200多家ISV,聯(lián)合推出了2500多個(gè)行業(yè)AI解決方案,這套生態(tài)體系是可以直接搬運(yùn)到大模型產(chǎn)業(yè)的。
人才培養(yǎng)方面,有超過(guò)300家高校院所與昇騰AI開展合作,每年培養(yǎng)了超過(guò)10萬(wàn)名專業(yè)的AI人才,昇騰AI開發(fā)者的數(shù)量也在高速增長(zhǎng),今年已經(jīng)突破了180萬(wàn)人。

也正因?yàn)橛腥绱烁?,昇騰AI在此次大會(huì)論壇上宣布,聯(lián)合科大訊飛、智譜AI、云從科技和面壁智能四家生態(tài)伙伴共同發(fā)布大模型訓(xùn)推一體化解決方案,加快大模型的落地速度,讓大模型在智慧城市、智慧金融、智慧煤礦、智慧制造等更多細(xì)分行業(yè)中發(fā)揮出價(jià)值。
毫無(wú)疑問(wèn),大模型肯定會(huì)迎來(lái)屬于自己的時(shí)代,假如時(shí)代已經(jīng)來(lái)臨,那么它的決勝期絕對(duì)不是剛剛起步的第一年,和其他顛覆性的新產(chǎn)業(yè)技術(shù)一樣,大模型的發(fā)展注定會(huì)是一場(chǎng)時(shí)間與耐力的長(zhǎng)跑。
當(dāng)然,在子彈飛的這個(gè)過(guò)程中,在大模型時(shí)代的決勝時(shí)刻到來(lái)之前,我們需要更多的科大訊飛,也迫切需要能提供強(qiáng)大算力的昇騰AI。