ChatGPT如何改善汽車座艙內(nèi)的人機(jī)交互體驗(yàn)?
摘要
汽車座艙競(jìng)爭(zhēng)力的核心是人機(jī)交互,其中心任務(wù)是多輪對(duì)話。當(dāng)前痛點(diǎn):缺乏常識(shí),理解力弱,話題接不住,回復(fù)離題,前后不一致等。ChatGPT展示了超強(qiáng)的理解力和豐富的生成能力,類人表現(xiàn)令人驚嘆。其關(guān)鍵技術(shù)主要有兩點(diǎn):1、具備涌現(xiàn)能力的大模型;2、模型對(duì)齊(RLHF)。本文論點(diǎn):汽車座艙應(yīng)該建立模型對(duì)齊和多模交互能力,以在座艙場(chǎng)景下達(dá)到極致的人機(jī)交互用戶體驗(yàn)。
背景介紹:自去年11月30日發(fā)布以來(lái),只用了2個(gè)月,ChatGPT就達(dá)到1億用戶。這幾個(gè)月來(lái),“由 chatGPT 發(fā)布引發(fā)的 AI 海嘯,從業(yè)界到民間,從投資人到企業(yè)家,前所未有,蔚為大觀”。這里自然有炒作和泡沫,但技術(shù)突破和科技革命也不容否認(rèn)。
?
痛點(diǎn)和機(jī)遇:汽車座艙競(jìng)爭(zhēng)力的核心是人機(jī)交互,其中心任務(wù)是多輪對(duì)話。當(dāng)前痛點(diǎn):缺乏常識(shí),理解力弱,話題接不住,回復(fù)離題,前后不一致等。ChatGPT展示了超強(qiáng)的理解力和豐富的生成能力,類人表現(xiàn)令人驚嘆。其關(guān)鍵技術(shù)主要有兩點(diǎn):1、具備涌現(xiàn)能力的大模型;2、模型對(duì)齊(RLHF)。對(duì)于后者,媒體往往談得不多。本文嘗試從模型對(duì)齊切入,談一談對(duì)座艙競(jìng)爭(zhēng)力構(gòu)建方向的思考。
?
解決方案:BERT,是填空,解析更強(qiáng);GPT,是續(xù)寫,生成更強(qiáng)。續(xù)寫可以兼容解析,但解析不能兼容續(xù)寫。加上BERT路線在參數(shù)量繼續(xù)加大后難以收斂,這條路線算廢了。
大模型
提起大模型,很多人有誤解,說(shuō)“大力出奇跡”。言外之意是大模型過(guò)多的借助大算力和大數(shù)據(jù),而不是人類的聰明才智。研究人員應(yīng)該追求用更小的模型,更少的數(shù)據(jù)實(shí)現(xiàn)相同的涌現(xiàn)能力,這才能讓技術(shù)民主化,才算“高尚”的算法。對(duì)于這個(gè)問(wèn)題,我建議大家看看這篇文章和視頻。關(guān)于ChatGPT如何對(duì)常識(shí)進(jìn)行構(gòu)建,據(jù)一些朋友講,OpenAI內(nèi)部的人也不完全清楚。很多時(shí)候不是在發(fā)明,而是在發(fā)現(xiàn)。沒有人(包括Sam Altman)預(yù)先知道語(yǔ)言模型有這么強(qiáng),開始大家只是通過(guò) prompt engineering 零星的知道 GPT-3 內(nèi)部有更多東西。根據(jù)OpenAI去年12月發(fā)布的視頻:“即使在今天,我們也無(wú)法窺視神經(jīng)網(wǎng)絡(luò)的深處,了解機(jī)器內(nèi)部發(fā)生了什么?!蔽覀€(gè)人的看法是:人腦思維例如構(gòu)建常識(shí)的復(fù)雜性超出了目前人類語(yǔ)言能夠描述、理性能夠理解的極限。上面理查德·薩頓文章的最后一段,提到“思維的內(nèi)容是巨大的、不可救藥的復(fù)雜”。他認(rèn)為我們嘗試簡(jiǎn)化思維的過(guò)程,讓我們目前的理解力能夠企及,這是行不通的。我們是無(wú)法通過(guò)類比等方法讓學(xué)齡前的孩子真正理解廣義相對(duì)論的,如果硬這么做,這個(gè)類比會(huì)因?yàn)橄嗑嗌踹h(yuǎn)、面目全非而無(wú)法幫助孩子理解本質(zhì),并進(jìn)行應(yīng)用。我目前對(duì)此悲觀,感覺要人類理性理解大腦的思維過(guò)程可能就好像讓學(xué)童理解廣義相對(duì)論一樣。大模型本質(zhì)上是對(duì)人類思維的粗略的模擬。我們有些模擬是建立在對(duì)原理的精確理解之上的:比如在對(duì)牛頓第二定律理解的基礎(chǔ)上,建立了游戲引擎/物理引擎中關(guān)鍵的部件-剛體動(dòng)力學(xué)模擬;在對(duì)納威斯托克斯方程理解的基礎(chǔ)上,實(shí)現(xiàn)了流體模擬。但是人類思維不一樣,我們可能只能借助大模型這一粗略的模擬來(lái)使AI系統(tǒng)達(dá)到通用智能(AGI)/超級(jí)智能(ASI)的能力,而無(wú)需也無(wú)法對(duì)思維的原理有一個(gè)清晰的理解。這對(duì)于建立強(qiáng)大的AI系統(tǒng)來(lái)說(shuō)可能已經(jīng)足夠,但稍稍想一下,就能品出里邊的危險(xiǎn):這相當(dāng)于制造了一匹沒有籠頭和馬鞍的不受控制的烈馬。它可能反噬,傷害人類。關(guān)于超級(jí)智能的潛在危害請(qǐng)參考這篇?文章?和?視頻。而模型對(duì)齊相當(dāng)于給烈馬套上籠頭。
?
模型對(duì)齊
一個(gè)AI系統(tǒng)可能很有能力,有很多知識(shí),比如GPT-3和盤古大模型。但它不知道人類想讓它做什么。如果不能理解人類顯式和隱含的意圖(如價(jià)值觀),它就不會(huì)那么有用。比如給GPT-3輸入提示:“請(qǐng)向6歲兒童解釋登月一事”。它可能以為你讓它寫出類似的句子,于是它的回答可能是:“請(qǐng)向6歲兒童解釋無(wú)限的概念”。這顯然不是你想要的。簡(jiǎn)而言之,建立有用的AI系統(tǒng)通常分兩步:1.讓它有能力;2.讓它做你想讓它做的事兒。#2就是對(duì)齊(alignment)。隨著AI系統(tǒng)越來(lái)越強(qiáng)大,這對(duì)人類安全至關(guān)重要。若想直觀了解,可參照這個(gè)視頻:OpenAI:對(duì)齊AI系統(tǒng)使其遵從人類意圖。
?
世界范圍內(nèi),在對(duì)齊研究方面造詣?shì)^深的主要是DeepMind和OpenAI這兩家以AGI為愿景的公司。代表人物是 Jan Leike,他于2017年在DeepMind發(fā)表了人反饋強(qiáng)化學(xué)習(xí)(Reinforcement Learning from Human Feedback,簡(jiǎn)稱RLHF)的論文。目前擔(dān)任OpenAI對(duì)齊研究的負(fù)責(zé)人,是將GPT-3向InstructGPT/chatGPT華麗轉(zhuǎn)變背后的靈魂人物。這篇文章?是 Jan Leike 對(duì) OpenAI 對(duì)齊研究方法的簡(jiǎn)單介紹。OpenAI的對(duì)齊研究方法包括完善RLHF、AI輔助的人類評(píng)估以及自動(dòng)對(duì)齊研究。 他們?cè)O(shè)計(jì)的方法不光是為了對(duì)齊GPT-3的。隨著人工智能的飛速發(fā)展,我們必須在AGI(樂觀估計(jì)在2029年出現(xiàn))和ASI(樂觀估計(jì)在2040年出現(xiàn))出現(xiàn)之前設(shè)計(jì)并完善好對(duì)齊它們的方法。馬斯克最近呼吁:“AI潛力巨大,立法刻不容緩”。對(duì)AI安全進(jìn)行保障的關(guān)鍵措施就是對(duì)齊。Jan Leike 在?這篇文章?中對(duì)DeepMind 和 OpenAI 過(guò)去幾年在對(duì)齊研究中的實(shí)踐和對(duì)未來(lái)的展望做了比較詳細(xì)的總結(jié)。

稍微展開:語(yǔ)言和語(yǔ)言模型的本質(zhì)是所有句子的概率分布。語(yǔ)言和知識(shí)的關(guān)系是:句子“貓有4條腿”比“貓有三條腿”概率大,這是語(yǔ)言模型知道的“真實(shí)”。對(duì)齊在效果上類似于剪枝,確切點(diǎn)說(shuō)是調(diào)整分支的概率。光憑語(yǔ)言模型能否建立空間想象力呢,視覺模態(tài)可以在概念之間建立僅憑語(yǔ)言無(wú)法建立的連接。多模態(tài)學(xué)習(xí)并不是遙不可及的,也是提高大語(yǔ)言模型性能的一個(gè)重要解決方案。
啟發(fā)或建議:
1、針對(duì)“理解力弱”的痛點(diǎn)。智能座艙應(yīng)該就大模型的對(duì)齊技術(shù)進(jìn)行研究,并基于現(xiàn)網(wǎng)數(shù)據(jù)訓(xùn)練獎(jiǎng)勵(lì)模型,給到大模型進(jìn)行對(duì)齊,使得到的大模型變體更加理解座艙場(chǎng)景下司乘人員的意圖,以在座艙場(chǎng)景下達(dá)到極致的人機(jī)交互用戶體驗(yàn)。
也就是以艙內(nèi)傳感器和效用器(車控、數(shù)字人、揚(yáng)聲器等)為依托?;谧搨鞲衅鳎〝z像頭、麥克風(fēng))等“察言觀色”,收集用戶對(duì)大模型生成內(nèi)容的偏好,優(yōu)化RM模型,適配車載特定需求。
另外,座艙競(jìng)爭(zhēng)力的關(guān)鍵在于持續(xù)提升用戶體驗(yàn)。而德魯克說(shuō)過(guò):“無(wú)法量化就無(wú)法優(yōu)化”。那么如何“量化智能座艙的用戶體驗(yàn)”就是一個(gè)非常關(guān)鍵的問(wèn)題。

這里chatGPT對(duì)齊技術(shù)的Step 2很有啟發(fā)意義:可以基于人類反饋對(duì)用戶體驗(yàn)進(jìn)行建模,得到一個(gè)類似獎(jiǎng)勵(lì)模型的用戶體驗(yàn)評(píng)分模型。用它作為代理指標(biāo)(proxy metrics)協(xié)助我們進(jìn)行座艙用戶體驗(yàn)的提升工作。

這項(xiàng)工作也稱為“主觀體驗(yàn)客觀化”(Objectification of?Subjective?Experience),是體驗(yàn)建模的一部分,可以量化評(píng)估&改善很多非常主觀的座艙特性。
2、針對(duì)“話題接不住,回復(fù)離題”的痛點(diǎn)。基于車載傳感器(攝像頭、麥克風(fēng)、GPS等),感知對(duì)話場(chǎng)景,形成對(duì)話上下文 prompt,給到類似ChatGPT的大模型,使人機(jī)交互“言之有物、物有所指”。
3、針對(duì)“前后不一致”的痛點(diǎn)。建議基于類似ChatGPT大模型的能力,建立人格化的對(duì)話系統(tǒng),基于文本prompt或微調(diào)的方式賦予角色個(gè)性或“人設(shè)”,以及實(shí)現(xiàn)會(huì)話級(jí)情緒建模。
情緒建模指大模型建模會(huì)話中數(shù)字人的情感波動(dòng),并將情感標(biāo)簽返回。情感標(biāo)簽形式可以是離散的或連續(xù)的(valence & arousal),可用于數(shù)字人表情控制和情感化TTS。關(guān)于對(duì)話模型中的情感建模,請(qǐng)參考"無(wú)監(jiān)督情感神經(jīng)元"的研究和視頻介紹。
?
總之,我們期待類似ChatGPT的大模型在艙內(nèi)人機(jī)交互中發(fā)揮越來(lái)越重要的作用。下圖是個(gè)比較遠(yuǎn)景的暢想:

所以你怎么看?請(qǐng)?jiān)谠u(píng)論區(qū)中告訴我。感謝觀看和慷慨支持,期待深入的討論!
??
問(wèn)題和討論:
1)在人與人交流中,主動(dòng)發(fā)問(wèn)是非常有價(jià)值的。現(xiàn)在所有?chatbot?都是人問(wèn)它,它很少主動(dòng)問(wèn)人。你認(rèn)為大模型可以基于場(chǎng)景上下文 prompt 進(jìn)行應(yīng)景的主動(dòng)發(fā)問(wèn)嗎?
2)多模對(duì)話技術(shù)在座艙內(nèi)有什么應(yīng)用場(chǎng)景?對(duì)于類似ChatGPT的大模型來(lái)說(shuō),座艙多模對(duì)話場(chǎng)景中高效的 prompt 會(huì)是什么樣的?
3)如何應(yīng)用對(duì)齊技術(shù)以使得在座艙場(chǎng)景下AI系統(tǒng)對(duì)司乘人員意圖的理解更上一層樓?
4)你對(duì)Claude模型中憲法AI的想法怎么看,可否借助憲法機(jī)制提升座艙場(chǎng)景下人機(jī)對(duì)話的安全性(以及有用性、無(wú)毒性)?
?
大膽的想法
最后提一個(gè)大膽想法供大家批判:DeepMind 的圍棋AI AlphaZero 僅僅通過(guò)自我對(duì)弈(self-play)達(dá)到超一流棋手的水平。那么在大型語(yǔ)言模型的對(duì)話場(chǎng)景中,是否也有可以實(shí)現(xiàn) self-play 以減少對(duì)數(shù)據(jù)的依賴呢?