最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

對話商湯王曉剛:“百模大戰(zhàn)”下半場,如何才能突出重圍?

2023-07-26 14:55 作者:光錐智能  | 我要投稿

點(diǎn)擊關(guān)注

文 | 姚悅


今年最早發(fā)布的那批大模型,現(xiàn)在怎么樣了?

近期,商湯科技宣布“商湯日日新SenseNova”大模型體系完成了第一次重大迭代。這距離其發(fā)布過去3個月時間。

“每天不斷接到用戶調(diào)用,收到建議反饋后,每隔幾天都會進(jìn)行快速更新。同時,也會有長遠(yuǎn)規(guī)劃,每隔一個月或幾個月,大模型要有質(zhì)變,上一個臺階?!鄙虦萍悸?lián)合創(chuàng)始人、首席科學(xué)家、絕影智能汽車事業(yè)群總裁王曉剛表示,大模型體系確實(shí)在“日日新”。

“商湯日日新SenseNova”各大模型都已經(jīng)完成不同程度升級。商量SenseChat升級到2.0版本,上下文長度從2k(2048個字)提升到了32k(32768個字),意味著能夠更加充分理解上下文。在知識信息準(zhǔn)確性、邏輯判斷能力、創(chuàng)作性等方面都有了更多提升。

而目標(biāo)“賦能各行各業(yè)”,商湯科技大模型的多模態(tài)能力也不斷在金融、醫(yī)療,以及智能汽車領(lǐng)域等領(lǐng)域場景已經(jīng)實(shí)現(xiàn)或正在探索落地。

特別是在近期的CVPR(國際計(jì)算機(jī)視覺與模式識別會議)2023中,商湯科技及聯(lián)合實(shí)驗(yàn)室提出業(yè)內(nèi)首個感知決策一體化的自動駕駛通用大模型——UniAD,多項(xiàng)關(guān)鍵技術(shù)指標(biāo)上超越了SOTA(當(dāng)前最先進(jìn)技術(shù))?!按竽P鸵欢〞ο乱淮詣玉{駛產(chǎn)生深刻影響?!蓖鯐詣偙硎尽?/p>

不過,商湯科技大模型體系迭代的同時,外界環(huán)境亦在劇變。

經(jīng)歷半年多的“大煉?!保瑖鴥?nèi)大模型從“硬橋硬馬”的參數(shù)競賽,已經(jīng)進(jìn)入到“真刀真槍”解決問題的下半場階段,競爭愈加白熱化。甚至有資本市場人士認(rèn)為,這輪“百模大戰(zhàn)”,國內(nèi)AI大模型最終勝出的不超過2%,意味著,剩下98%的國內(nèi)大模型都會消失在競爭中。

激烈的競爭中,如何才能躋身“關(guān)鍵少數(shù)”?近期,光錐智能對話商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家、絕影智能汽車事業(yè)群總裁王曉剛,了解商湯科技當(dāng)前階段關(guān)于大模型的經(jīng)驗(yàn)、思考和規(guī)劃。

核心觀點(diǎn):

1、以前每個領(lǐng)域都有自己的模型,每個行業(yè)每個方向有自己的研發(fā)團(tuán)隊(duì),大家協(xié)同性不需要那么高,但今天必須是高度協(xié)同的狀態(tài),一定需要對研發(fā)體系進(jìn)行重塑。

2、大模型一定會對下一代自動駕駛產(chǎn)生深刻影響。

3、如何讓視覺信息和語言信息有同樣的特征表達(dá),進(jìn)行更好的融合,同時把圖像里面豐富的語義內(nèi)涵去挖掘出來,是發(fā)展多模態(tài)的一大挑戰(zhàn)。

4、保證大模型的優(yōu)勢需要做到三點(diǎn):一是軟硬件基礎(chǔ)設(shè)施,二是深入到各個行業(yè)高速運(yùn)轉(zhuǎn)大模型研發(fā)體系,三是不斷創(chuàng)新目標(biāo)和方式。

(商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家、絕影智能汽車事業(yè)群總裁 王曉剛)

以下為對話實(shí)錄:

“今天必須高度協(xié)同,就需要重塑研發(fā)體系”

Q:商湯科技最新推出的“商量2.0”新增了知識庫融合接口,有什么具體作用?

A:一些客戶有專屬領(lǐng)域知識需求,如果沒有外掛知識庫融合,就需要把客戶的數(shù)據(jù)拿來,再去訓(xùn)練模型,一方面成本比較高,涉及到整個模型的迭代;另一方面,安全性不能得到保障。

通過知識庫的融合,不需要進(jìn)入到模型本身,就可以比較簡單、方便地把領(lǐng)域知識總結(jié)在一起,解決大模型的“幻覺”問題。

Q:商湯科技的AI大裝置SenseCore如何同步升級?

A:在過去幾個月,大裝置也都處于非常緊張的迭代狀態(tài),要保證有更大規(guī)模的卡連接,也要保證卡間、機(jī)間通訊支持穩(wěn)定運(yùn)行。

同時,大裝置也需要針對不同類型的應(yīng)用,不同類型模型進(jìn)行優(yōu)化。比如做秒畫,要涉及到生成非常高清的高質(zhì)量圖像,就涉及到大量數(shù)據(jù)傳輸,對帶寬要求就非常高,這和自然語言模型就很不一樣。所以隨著模型演進(jìn),大裝置本身系統(tǒng)能力也在提升。此外,在部署端也在做一些工作。

Q:關(guān)于商湯AI大裝置SenseCore,是不是可以理解為是一個提供基礎(chǔ)設(shè)施的基站,團(tuán)隊(duì)在整個商湯內(nèi)部是類似于中臺的形式?

A:可以把大裝置理解成一個基礎(chǔ)設(shè)施,同樣,各個大模型的團(tuán)隊(duì),也是把這個模型去提供給各個行業(yè)的行業(yè)線,從某種意義上,也是中臺。

所以將來,商湯一定需要對研發(fā)體系進(jìn)行重塑,能夠去充分利用好這些公共資源,把各個行業(yè)的信息匯聚導(dǎo)入到大模型還有中臺,建立起基礎(chǔ)設(shè)施。

這就和以前人工智能的發(fā)展很不一樣,以前每個領(lǐng)域都有自己的模型,每個行業(yè)每個方向有自己的研發(fā)團(tuán)隊(duì),大家協(xié)同性就不需要那么高,但今天必須是高度協(xié)同的狀態(tài)。

Q:商湯科技的“日日新”現(xiàn)在是以什么樣的速度更新的?

A:每天都不斷接到用戶調(diào)用,很多重點(diǎn)客戶很有積極性,會比較全方位地測試和評估,也會給出方向性的建議。所以收到這些反饋以后,(大模型)每隔幾天都會進(jìn)行快速更新。

同時,也有長期規(guī)劃,每隔一個月或幾個月,模型在有些地方要有質(zhì)變。比如,“商量”模型,4月10號發(fā)布的模型,上下文的長度是2k,現(xiàn)在商量2.0能做到32k,就能有非常強(qiáng)的能力去理解上下文。

Q:客戶反饋跟研發(fā)迭代之間的流程具體是什么樣的,效果如何?

A:客戶很多,大模型團(tuán)隊(duì)人數(shù)有限,不可能讓大模型團(tuán)隊(duì)直接去面對這么多客戶。所以要動員整個公司的產(chǎn)品和研發(fā)力量,把大模型開放給其他各個研發(fā)團(tuán)隊(duì)。

這些研發(fā)團(tuán)隊(duì)跟客戶對接過程中,能夠去探索怎么樣調(diào)整模型,更好滿足各個行業(yè)的需求。一旦根據(jù)需求找到對應(yīng)調(diào)試方式,就會對基座模型團(tuán)隊(duì)反饋,基座模型團(tuán)隊(duì)再進(jìn)行模型更新。

不過,各個研發(fā)團(tuán)隊(duì)并不是立刻把客戶的需求反饋,而是開發(fā)一段時間,對用戶的需求進(jìn)行消化、整理,然后做二次創(chuàng)新,得到一些比較確定的結(jié)論,再給到基座模型團(tuán)隊(duì)。

這樣做,最大程度地節(jié)省了基座模型團(tuán)隊(duì)的時間和資源,同時能夠動員整個公司的研發(fā)和產(chǎn)品的資源去對接客戶。

“大模型一定會對下一代自動駕駛產(chǎn)生深刻影響”

Q:有觀點(diǎn)認(rèn)為“大模型永遠(yuǎn)是現(xiàn)實(shí)世界的子集”,商湯如何看待這個說法?;谶@個說法,智能駕駛輔助是否真的可以通過大模型訓(xùn)練來實(shí)現(xiàn)無人駕駛的終極目標(biāo)?

A:人的認(rèn)知本身也是現(xiàn)實(shí)世界的一個子集,而且是在不斷演進(jìn)的過程當(dāng)中。如果說“大模型是現(xiàn)實(shí)世界的子集”也沒錯。但最核心的,還是要看到大模型現(xiàn)在無論對科技進(jìn)步,還有行業(yè)發(fā)展都帶來了深刻變化。而且人工智能發(fā)展也是永無止境的,也不是單一維度,可能在未來結(jié)合其他維度有突破,不斷有新的成果產(chǎn)生。

大模型一定會對下一代自動駕駛產(chǎn)生比較深刻影響,大模型的特點(diǎn)是不斷去解鎖人類之前不能完成的新功能和新任務(wù)。

現(xiàn)在自動駕駛不夠智能,有幾方面原因,首先,車上各種傳感器種類非常多,不同類型的傳感器融合具有挑戰(zhàn)性;其次,自動駕駛系統(tǒng)和人工智能系統(tǒng),最核心的是做決策和判斷的模塊,但目前這些模塊還是基于規(guī)則。

在未來,大模型會給自動駕駛帶來三個重要變化:

第一個,核心決策模塊,可以用語言模型去替代以往比較簡單的規(guī)則;

第二,決策模塊變得非常強(qiáng)大,可以更好地融合從感知模塊輸出的各種信息,提升整體安全性和駕駛體驗(yàn)。

例如,車上感知、決策,規(guī)劃、控制眾多模塊,原來都是割裂來看,分別去開發(fā),然后通過手動的方式進(jìn)行鏈接。但商湯最近發(fā)布的首個端到端的自動駕駛通用大模型——UniAD,就是以最終的駕駛體驗(yàn)為目標(biāo),讓這些模塊實(shí)現(xiàn)端到端優(yōu)化,可以極大提升開發(fā)效率。

第三,自動駕駛還有一大挑戰(zhàn),就是AI模型可執(zhí)行、可解釋性不高。但現(xiàn)在大模型,尤其是語言模型,不單是輸出結(jié)果,還可以輸出中間的邏輯推理過程來解釋這原因。所以,未來的自動駕駛系統(tǒng),會有更好的可解釋性,出現(xiàn)問題的時候,可以更好地去診斷,更好地輔助提升各方面的能力。

Q:UniAD有沒有應(yīng)用到實(shí)際的量產(chǎn),或者走向一個應(yīng)用階段,有沒有可以立刻分享的?

A:面向量產(chǎn)還有一定的周期,但現(xiàn)在已經(jīng)開始,基于我們以往在自動駕駛領(lǐng)域的量產(chǎn)經(jīng)驗(yàn),繼續(xù)過去的一些方法——BEV、Transfomer,以及其它智駕系統(tǒng),會發(fā)現(xiàn)一些非常難解決的例子,針對這些例子現(xiàn)在用UniAD的框架去進(jìn)行測試,就會看到有比較顯著的提升。

Q:在智能駕駛方面,會不會在大模型上有更多的探索?

A:大模型的投入一定是持續(xù)的。大模型能夠讓商湯找到核心價值所在,未來也會給客車企業(yè)開放接口,在上面做二次開發(fā)創(chuàng)新。

“往通用視覺方向努力”

Q:商湯已經(jīng)推出多種類別的大模型,在戰(zhàn)略部署上未來是不是會有一些側(cè)重點(diǎn),是會偏向視覺語言,還是多模態(tài)的發(fā)展?

A:是偏向多模態(tài),AI系統(tǒng)一定能夠更好把握各種多模態(tài)的信息,現(xiàn)實(shí)生活中遇到很多應(yīng)用場景,自動駕駛還有機(jī)器人等等,都會運(yùn)用到多模態(tài)。

Q“書生”系列的統(tǒng)一通用視覺任務(wù)框架,是不是可以理解為就是商湯在追求“視覺版的ChatGPT”或者是“視覺版的AGI”?

A是往通用視覺這個方向努力,3月份發(fā)布的“書生2.5”,現(xiàn)在也正式做了比較大的升級,推出“書生多模態(tài)”的模型。這里面統(tǒng)一了自然語言指令,可以定義各種開放式任務(wù),像之前視覺任務(wù)都是預(yù)定義任務(wù),現(xiàn)在做延申以后,有非常開放的350萬語義標(biāo)簽,能夠更好地覆蓋開放世界里面各種類別和概念。

舉個例子,出國的話,如果國外菜單看不懂,就可以拍一張照片,大模型能介紹菜單有什么,還會給一些建議,你可以提要求,想吃葷的還是素的,預(yù)算多少,它就會給你一些組合建議等等。

所以,多模態(tài)能夠幫助我們與現(xiàn)實(shí)世界有更好的交互,這也是商湯致力于這一方向的原因,希望在不斷探索與推進(jìn)的過程中,給人類帶來新的價值。

Q:研究語言大模型方面的思路和路徑和傳統(tǒng)NLP會有哪些差異,大模型的思路對于商湯研究視覺或者通用視覺智能會有什么啟發(fā)?

A現(xiàn)在研究自然語言,和以前研究思路很不一樣。過去幾十年是基于語法的規(guī)則來產(chǎn)生語義、語法的分析書等等,現(xiàn)在都是基于大模型,基于Transformer網(wǎng)絡(luò)架構(gòu)。

商湯從2019年開始從事大模型方面的研究,當(dāng)時視覺就走的(大模型)這條路線。在Transformer領(lǐng)域里,商湯本身也有比較深的研究,在自動駕駛里面提出的BEV也是行業(yè)里面影響比較大的“老架構(gòu)”。

當(dāng)商湯從2021年開始從事自然語言研究的時候,這方面是有比較明顯的優(yōu)勢,再往多模態(tài)方向發(fā)展的時候,語言視覺開始有更加深度融合,就體現(xiàn)出比較強(qiáng)的這方面的積累和能力。

Q:商湯是從視覺大模型做起,現(xiàn)在做到多模態(tài)大模型有什么挑戰(zhàn)?

A:在開發(fā)大模型過程中,怎么能夠讓視覺信息和語言信息有同樣的特征表達(dá),有很好的融合,例如,一張圖能夠迎合1000多個詞,怎么能夠把圖像里面非常豐富的語義的內(nèi)涵去挖掘出來,是開發(fā)(多模態(tài))大模型過程中面臨的挑戰(zhàn)。

此外,要想做好多模態(tài),視覺還有語言,這些模型都需要比較強(qiáng)。要能夠更好地運(yùn)用多模態(tài),還需要深入了解各行業(yè)。因?yàn)橛幸恍┒嗄B(tài)的數(shù)據(jù),例如自動駕駛、機(jī)器人等領(lǐng)域的視覺任務(wù)數(shù)據(jù),現(xiàn)階段在互聯(lián)網(wǎng)上是沒有的。

如何在“百模大戰(zhàn)”中保持優(yōu)勢?

?Q:當(dāng)前“百模大戰(zhàn)”態(tài)勢中,商湯“日日新”大模型體系如何在這種激烈的競爭中保持優(yōu)勢?

A:首先,商湯“日日新”大模型有一個比較長的歷史積累,從2019年開始,我們就從事大模型方面的研究,也比較早建立大裝置軟硬件的基礎(chǔ)設(shè)施。第二,需要針對大模型給行業(yè)帶來的變化,重塑研發(fā)體系。第三,不要一直去追隨國外的成果,而是要基于大模型在應(yīng)用上的落地,有自己的創(chuàng)新性。

Q:商湯在創(chuàng)新方面具體有哪些成果?

A:今年6月,商湯的智能決策在《我的世界》游戲上面取得了重要突破。在過去幾年,包括OpenAI、DeepMind都花了大量的精力在這個方向上,基于強(qiáng)化學(xué)習(xí),完成開放世界里面的任務(wù)。它們過去幾年一共解決了78個任務(wù),而商湯融合語言模型去做,能夠解決全部的262個任務(wù)。

決策這個方向的市場很廣,基于大模型,未來可以用到機(jī)器人、自動駕駛等各領(lǐng)域。

此外,“書生”多模態(tài)大模型也是一大創(chuàng)新。以往無論是圖像視頻、視覺任務(wù),有檢測分割分類等等,這些都是過去幾十年定義好的,但是有了新任務(wù)時候都不太可以用語言描述新的任務(wù)。像Meta能夠去做任意物體的分割,今天商湯做的這些事情要遠(yuǎn)遠(yuǎn)超過他們的能力,可以通過自然語言去定義新的視覺任務(wù),可以及時去給出新的任務(wù)結(jié)果輸出。


歡迎關(guān)注“光錐智能”,獲取更多前沿科技知識!

對話商湯王曉剛:“百模大戰(zhàn)”下半場,如何才能突出重圍?的評論 (共 條)

分享到微博請遵守國家法律
余庆县| 舟山市| 什邡市| 新泰市| 东丰县| 富源县| 淳安县| 万荣县| 苏尼特右旗| 洪江市| 慈利县| 永吉县| 五原县| 临颍县| 西乌| 苍梧县| 密山市| 祁东县| 揭西县| 石阡县| 平顺县| 九江市| 达孜县| 平原县| 大邑县| 华宁县| 富裕县| 高唐县| 巴彦淖尔市| 沙田区| 西宁市| 清丰县| 永顺县| 乌海市| 揭阳市| 安新县| 宣汉县| 葵青区| 皋兰县| 临湘市| 西畴县|