手機(jī)站首頁散文詩歌雜文隨筆日記小小說

散文網(wǎng) » 科技 »學(xué)習(xí) » 對話商湯王曉剛：“百模大戰(zhàn)”下半場，如何才能突出重圍？

對話商湯王曉剛：“百模大戰(zhàn)”下半場，如何才能突出重圍？

2023-07-26 14:55 作者:光錐智能 0人讀過 | 我要投稿

點(diǎn)擊關(guān)注

文 | 姚悅

今年最早發(fā)布的那批大模型，現(xiàn)在怎么樣了？

近期，商湯科技宣布“商湯日日新SenseNova”大模型體系完成了第一次重大迭代。這距離其發(fā)布過去3個月時間。

“每天不斷接到用戶調(diào)用，收到建議反饋后，每隔幾天都會進(jìn)行快速更新。同時，也會有長遠(yuǎn)規(guī)劃，每隔一個月或幾個月，大模型要有質(zhì)變，上一個臺階?！鄙虦萍悸?lián)合創(chuàng)始人、首席科學(xué)家、絕影智能汽車事業(yè)群總裁王曉剛表示，大模型體系確實(shí)在“日日新”。

“商湯日日新SenseNova”各大模型都已經(jīng)完成不同程度升級。商量SenseChat升級到2.0版本，上下文長度從2k（2048個字）提升到了32k（32768個字），意味著能夠更加充分理解上下文。在知識信息準(zhǔn)確性、邏輯判斷能力、創(chuàng)作性等方面都有了更多提升。

而目標(biāo)“賦能各行各業(yè)”，商湯科技大模型的多模態(tài)能力也不斷在金融、醫(yī)療，以及智能汽車領(lǐng)域等領(lǐng)域場景已經(jīng)實(shí)現(xiàn)或正在探索落地。

特別是在近期的CVPR（國際計(jì)算機(jī)視覺與模式識別會議）2023中，商湯科技及聯(lián)合實(shí)驗(yàn)室提出業(yè)內(nèi)首個感知決策一體化的自動駕駛通用大模型——UniAD，多項(xiàng)關(guān)鍵技術(shù)指標(biāo)上超越了SOTA（當(dāng)前最先進(jìn)技術(shù)）?！按竽Ｐ鸵欢〞ο乱淮詣玉{駛產(chǎn)生深刻影響?！蓖鯐詣偙硎尽?/p>

不過，商湯科技大模型體系迭代的同時，外界環(huán)境亦在劇變。

經(jīng)歷半年多的“大煉?！保瑖鴥?nèi)大模型從“硬橋硬馬”的參數(shù)競賽，已經(jīng)進(jìn)入到“真刀真槍”解決問題的下半場階段，競爭愈加白熱化。甚至有資本市場人士認(rèn)為，這輪“百模大戰(zhàn)”，國內(nèi)AI大模型最終勝出的不超過2%，意味著，剩下98%的國內(nèi)大模型都會消失在競爭中。

激烈的競爭中，如何才能躋身“關(guān)鍵少數(shù)”？近期，光錐智能對話商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家、絕影智能汽車事業(yè)群總裁王曉剛，了解商湯科技當(dāng)前階段關(guān)于大模型的經(jīng)驗(yàn)、思考和規(guī)劃。

核心觀點(diǎn)：

1、以前每個領(lǐng)域都有自己的模型，每個行業(yè)每個方向有自己的研發(fā)團(tuán)隊(duì)，大家協(xié)同性不需要那么高，但今天必須是高度協(xié)同的狀態(tài)，一定需要對研發(fā)體系進(jìn)行重塑。

2、大模型一定會對下一代自動駕駛產(chǎn)生深刻影響。

3、如何讓視覺信息和語言信息有同樣的特征表達(dá)，進(jìn)行更好的融合，同時把圖像里面豐富的語義內(nèi)涵去挖掘出來，是發(fā)展多模態(tài)的一大挑戰(zhàn)。

4、保證大模型的優(yōu)勢需要做到三點(diǎn)：一是軟硬件基礎(chǔ)設(shè)施，二是深入到各個行業(yè)高速運(yùn)轉(zhuǎn)大模型研發(fā)體系，三是不斷創(chuàng)新目標(biāo)和方式。

（商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家、絕影智能汽車事業(yè)群總裁王曉剛）

以下為對話實(shí)錄：

“今天必須高度協(xié)同，就需要重塑研發(fā)體系”

Q：商湯科技最新推出的“商量2.0”新增了知識庫融合接口，有什么具體作用？

A：一些客戶有專屬領(lǐng)域知識需求，如果沒有外掛知識庫融合，就需要把客戶的數(shù)據(jù)拿來，再去訓(xùn)練模型，一方面成本比較高，涉及到整個模型的迭代；另一方面，安全性不能得到保障。

通過知識庫的融合，不需要進(jìn)入到模型本身，就可以比較簡單、方便地把領(lǐng)域知識總結(jié)在一起，解決大模型的“幻覺”問題。

Q：商湯科技的AI大裝置SenseCore如何同步升級？

A：在過去幾個月，大裝置也都處于非常緊張的迭代狀態(tài)，要保證有更大規(guī)模的卡連接，也要保證卡間、機(jī)間通訊支持穩(wěn)定運(yùn)行。

同時，大裝置也需要針對不同類型的應(yīng)用，不同類型模型進(jìn)行優(yōu)化。比如做秒畫，要涉及到生成非常高清的高質(zhì)量圖像，就涉及到大量數(shù)據(jù)傳輸，對帶寬要求就非常高，這和自然語言模型就很不一樣。所以隨著模型演進(jìn)，大裝置本身系統(tǒng)能力也在提升。此外，在部署端也在做一些工作。

Q：關(guān)于商湯AI大裝置SenseCore，是不是可以理解為是一個提供基礎(chǔ)設(shè)施的基站，團(tuán)隊(duì)在整個商湯內(nèi)部是類似于中臺的形式？

A：可以把大裝置理解成一個基礎(chǔ)設(shè)施，同樣，各個大模型的團(tuán)隊(duì)，也是把這個模型去提供給各個行業(yè)的行業(yè)線，從某種意義上，也是中臺。

所以將來，商湯一定需要對研發(fā)體系進(jìn)行重塑，能夠去充分利用好這些公共資源，把各個行業(yè)的信息匯聚導(dǎo)入到大模型還有中臺，建立起基礎(chǔ)設(shè)施。

這就和以前人工智能的發(fā)展很不一樣，以前每個領(lǐng)域都有自己的模型，每個行業(yè)每個方向有自己的研發(fā)團(tuán)隊(duì)，大家協(xié)同性就不需要那么高，但今天必須是高度協(xié)同的狀態(tài)。

Q：商湯科技的“日日新”現(xiàn)在是以什么樣的速度更新的？

A：每天都不斷接到用戶調(diào)用，很多重點(diǎn)客戶很有積極性，會比較全方位地測試和評估，也會給出方向性的建議。所以收到這些反饋以后，（大模型）每隔幾天都會進(jìn)行快速更新。

同時，也有長期規(guī)劃，每隔一個月或幾個月，模型在有些地方要有質(zhì)變。比如，“商量”模型，4月10號發(fā)布的模型，上下文的長度是2k，現(xiàn)在商量2.0能做到32k，就能有非常強(qiáng)的能力去理解上下文。

Q：客戶反饋跟研發(fā)迭代之間的流程具體是什么樣的，效果如何？

A：客戶很多，大模型團(tuán)隊(duì)人數(shù)有限，不可能讓大模型團(tuán)隊(duì)直接去面對這么多客戶。所以要動員整個公司的產(chǎn)品和研發(fā)力量，把大模型開放給其他各個研發(fā)團(tuán)隊(duì)。

這些研發(fā)團(tuán)隊(duì)跟客戶對接過程中，能夠去探索怎么樣調(diào)整模型，更好滿足各個行業(yè)的需求。一旦根據(jù)需求找到對應(yīng)調(diào)試方式，就會對基座模型團(tuán)隊(duì)反饋，基座模型團(tuán)隊(duì)再進(jìn)行模型更新。

不過，各個研發(fā)團(tuán)隊(duì)并不是立刻把客戶的需求反饋，而是開發(fā)一段時間，對用戶的需求進(jìn)行消化、整理，然后做二次創(chuàng)新，得到一些比較確定的結(jié)論，再給到基座模型團(tuán)隊(duì)。

這樣做，最大程度地節(jié)省了基座模型團(tuán)隊(duì)的時間和資源，同時能夠動員整個公司的研發(fā)和產(chǎn)品的資源去對接客戶。

“大模型一定會對下一代自動駕駛產(chǎn)生深刻影響”

Q：有觀點(diǎn)認(rèn)為“大模型永遠(yuǎn)是現(xiàn)實(shí)世界的子集”，商湯如何看待這個說法?；谶@個說法，智能駕駛輔助是否真的可以通過大模型訓(xùn)練來實(shí)現(xiàn)無人駕駛的終極目標(biāo)？

A：人的認(rèn)知本身也是現(xiàn)實(shí)世界的一個子集，而且是在不斷演進(jìn)的過程當(dāng)中。如果說“大模型是現(xiàn)實(shí)世界的子集”也沒錯。但最核心的，還是要看到大模型現(xiàn)在無論對科技進(jìn)步，還有行業(yè)發(fā)展都帶來了深刻變化。而且人工智能發(fā)展也是永無止境的，也不是單一維度，可能在未來結(jié)合其他維度有突破，不斷有新的成果產(chǎn)生。

大模型一定會對下一代自動駕駛產(chǎn)生比較深刻影響，大模型的特點(diǎn)是不斷去解鎖人類之前不能完成的新功能和新任務(wù)。

現(xiàn)在自動駕駛不夠智能，有幾方面原因，首先，車上各種傳感器種類非常多，不同類型的傳感器融合具有挑戰(zhàn)性；其次，自動駕駛系統(tǒng)和人工智能系統(tǒng)，最核心的是做決策和判斷的模塊，但目前這些模塊還是基于規(guī)則。

在未來，大模型會給自動駕駛帶來三個重要變化：

第一個，核心決策模塊，可以用語言模型去替代以往比較簡單的規(guī)則；

第二，決策模塊變得非常強(qiáng)大，可以更好地融合從感知模塊輸出的各種信息，提升整體安全性和駕駛體驗(yàn)。

例如，車上感知、決策，規(guī)劃、控制眾多模塊，原來都是割裂來看，分別去開發(fā)，然后通過手動的方式進(jìn)行鏈接。但商湯最近發(fā)布的首個端到端的自動駕駛通用大模型——UniAD，就是以最終的駕駛體驗(yàn)為目標(biāo)，讓這些模塊實(shí)現(xiàn)端到端優(yōu)化，可以極大提升開發(fā)效率。

第三，自動駕駛還有一大挑戰(zhàn)，就是AI模型可執(zhí)行、可解釋性不高。但現(xiàn)在大模型，尤其是語言模型，不單是輸出結(jié)果，還可以輸出中間的邏輯推理過程來解釋這原因。所以，未來的自動駕駛系統(tǒng)，會有更好的可解釋性，出現(xiàn)問題的時候，可以更好地去診斷，更好地輔助提升各方面的能力。

Q：UniAD有沒有應(yīng)用到實(shí)際的量產(chǎn)，或者走向一個應(yīng)用階段，有沒有可以立刻分享的？

A：面向量產(chǎn)還有一定的周期，但現(xiàn)在已經(jīng)開始，基于我們以往在自動駕駛領(lǐng)域的量產(chǎn)經(jīng)驗(yàn)，繼續(xù)過去的一些方法——BEV、Transfomer，以及其它智駕系統(tǒng)，會發(fā)現(xiàn)一些非常難解決的例子，針對這些例子現(xiàn)在用UniAD的框架去進(jìn)行測試，就會看到有比較顯著的提升。

Q：在智能駕駛方面，會不會在大模型上有更多的探索？

A：大模型的投入一定是持續(xù)的。大模型能夠讓商湯找到核心價值所在，未來也會給客車企業(yè)開放接口，在上面做二次開發(fā)創(chuàng)新。

“往通用視覺方向努力”

Q：商湯已經(jīng)推出多種類別的大模型，在戰(zhàn)略部署上未來是不是會有一些側(cè)重點(diǎn)，是會偏向視覺語言，還是多模態(tài)的發(fā)展？

A：是偏向多模態(tài)，AI系統(tǒng)一定能夠更好把握各種多模態(tài)的信息，現(xiàn)實(shí)生活中遇到很多應(yīng)用場景，自動駕駛還有機(jī)器人等等，都會運(yùn)用到多模態(tài)。

Q：“書生”系列的統(tǒng)一通用視覺任務(wù)框架，是不是可以理解為就是商湯在追求“視覺版的ChatGPT”或者是“視覺版的AGI”？

A：是往通用視覺這個方向努力，3月份發(fā)布的“書生2.5”，現(xiàn)在也正式做了比較大的升級，推出“書生多模態(tài)”的模型。這里面統(tǒng)一了自然語言指令，可以定義各種開放式任務(wù)，像之前視覺任務(wù)都是預(yù)定義任務(wù)，現(xiàn)在做延申以后，有非常開放的350萬語義標(biāo)簽，能夠更好地覆蓋開放世界里面各種類別和概念。

舉個例子，出國的話，如果國外菜單看不懂，就可以拍一張照片，大模型能介紹菜單有什么，還會給一些建議，你可以提要求，想吃葷的還是素的，預(yù)算多少，它就會給你一些組合建議等等。

所以，多模態(tài)能夠幫助我們與現(xiàn)實(shí)世界有更好的交互，這也是商湯致力于這一方向的原因，希望在不斷探索與推進(jìn)的過程中，給人類帶來新的價值。

Q：研究語言大模型方面的思路和路徑和傳統(tǒng)NLP會有哪些差異，大模型的思路對于商湯研究視覺或者通用視覺智能會有什么啟發(fā)？

A：現(xiàn)在研究自然語言，和以前研究思路很不一樣。過去幾十年是基于語法的規(guī)則來產(chǎn)生語義、語法的分析書等等，現(xiàn)在都是基于大模型，基于Transformer網(wǎng)絡(luò)架構(gòu)。

商湯從2019年開始從事大模型方面的研究，當(dāng)時視覺就走的（大模型）這條路線。在Transformer領(lǐng)域里，商湯本身也有比較深的研究，在自動駕駛里面提出的BEV也是行業(yè)里面影響比較大的“老架構(gòu)”。

當(dāng)商湯從2021年開始從事自然語言研究的時候，這方面是有比較明顯的優(yōu)勢，再往多模態(tài)方向發(fā)展的時候，語言視覺開始有更加深度融合，就體現(xiàn)出比較強(qiáng)的這方面的積累和能力。

Q：商湯是從視覺大模型做起，現(xiàn)在做到多模態(tài)大模型有什么挑戰(zhàn)？

A：在開發(fā)大模型過程中，怎么能夠讓視覺信息和語言信息有同樣的特征表達(dá)，有很好的融合，例如，一張圖能夠迎合1000多個詞，怎么能夠把圖像里面非常豐富的語義的內(nèi)涵去挖掘出來，是開發(fā)（多模態(tài)）大模型過程中面臨的挑戰(zhàn)。

此外，要想做好多模態(tài)，視覺還有語言，這些模型都需要比較強(qiáng)。要能夠更好地運(yùn)用多模態(tài)，還需要深入了解各行業(yè)。因?yàn)橛幸恍┒嗄B(tài)的數(shù)據(jù)，例如自動駕駛、機(jī)器人等領(lǐng)域的視覺任務(wù)數(shù)據(jù)，現(xiàn)階段在互聯(lián)網(wǎng)上是沒有的。

如何在“百模大戰(zhàn)”中保持優(yōu)勢？

?Q：當(dāng)前“百模大戰(zhàn)”態(tài)勢中，商湯“日日新”大模型體系如何在這種激烈的競爭中保持優(yōu)勢？

A：首先，商湯“日日新”大模型有一個比較長的歷史積累，從2019年開始，我們就從事大模型方面的研究，也比較早建立大裝置軟硬件的基礎(chǔ)設(shè)施。第二，需要針對大模型給行業(yè)帶來的變化，重塑研發(fā)體系。第三，不要一直去追隨國外的成果，而是要基于大模型在應(yīng)用上的落地，有自己的創(chuàng)新性。

Q：商湯在創(chuàng)新方面具體有哪些成果？

A：今年6月，商湯的智能決策在《我的世界》游戲上面取得了重要突破。在過去幾年，包括OpenAI、DeepMind都花了大量的精力在這個方向上，基于強(qiáng)化學(xué)習(xí)，完成開放世界里面的任務(wù)。它們過去幾年一共解決了78個任務(wù)，而商湯融合語言模型去做，能夠解決全部的262個任務(wù)。

決策這個方向的市場很廣，基于大模型，未來可以用到機(jī)器人、自動駕駛等各領(lǐng)域。

此外，“書生”多模態(tài)大模型也是一大創(chuàng)新。以往無論是圖像視頻、視覺任務(wù)，有檢測分割分類等等，這些都是過去幾十年定義好的，但是有了新任務(wù)時候都不太可以用語言描述新的任務(wù)。像Meta能夠去做任意物體的分割，今天商湯做的這些事情要遠(yuǎn)遠(yuǎn)超過他們的能力，可以通過自然語言去定義新的視覺任務(wù)，可以及時去給出新的任務(wù)結(jié)果輸出。

歡迎關(guān)注“光錐智能”，獲取更多前沿科技知識！

標(biāo)簽：人工智能商湯大模型