最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

谷歌PaLM-E(具身化的多模態(tài)大語(yǔ)言模型)

2023-03-30 23:18 作者:心魔已滅  | 我要投稿

2023年3月6日,谷歌和柏林工業(yè)大學(xué)共同發(fā)表論文,對(duì)其已開(kāi)發(fā)的PaLM-E多模態(tài)大模型的訓(xùn)練方法、訓(xùn)練環(huán)境及通用化效果進(jìn)行了詳細(xì)闡述。通過(guò)在預(yù)訓(xùn)練的語(yǔ)言類(lèi)大模型中嵌入圖像、狀態(tài)、感知等多類(lèi)型數(shù)據(jù),PaLM-E模型不僅具備通用化語(yǔ)言能力,還能執(zhí)行視覺(jué)問(wèn)答、感知推理、機(jī)器操作等復(fù)雜的任務(wù),谷歌在AI多模態(tài)大模型的訓(xùn)練方法上的探索已經(jīng)初見(jiàn)成效。 谷歌在2022年提出的PaLM模型,擁有的5620億參數(shù)的PaLM-E大模型是在語(yǔ)言類(lèi)模型PaLM(5400億參數(shù);GPT3為1750億參數(shù))和視覺(jué)類(lèi)模型ViT(220億參數(shù))的基礎(chǔ)上開(kāi)發(fā)的。在PaLM模型基礎(chǔ)上,引入了具身化和多模態(tài)概念,實(shí)現(xiàn)了指導(dǎo)現(xiàn)實(shí)世界機(jī)器人完成相應(yīng)任務(wù)的功能。PaLM-E的字面理解,是以PaLM作為預(yù)訓(xùn)練的語(yǔ)言模型,并使其具身化(Embodied)。 其中,機(jī)器學(xué)習(xí)中的具身化是指一種涉及到物理實(shí)體(如機(jī)器人)的機(jī)器學(xué)習(xí)方法,它可以使人工智能通過(guò)感知、行動(dòng)和交互來(lái)學(xué)習(xí)和推理。具身化的機(jī)器學(xué)習(xí)方法可以處理多模態(tài)的數(shù)據(jù),如語(yǔ)言、視覺(jué)和觸覺(jué),并且可以適應(yīng)不同的環(huán)境和任務(wù)。 PaLM-E參與到機(jī)器人的控制循環(huán)中

PaLM-E的主要架構(gòu)思想是,將連續(xù)的、具體的多模態(tài)觀察(如圖像、狀態(tài)估計(jì)或其他傳感器模態(tài)),轉(zhuǎn)化為和語(yǔ)言token嵌入空間維數(shù)相同的向量序列,用和語(yǔ)言token同樣的方式注入預(yù)訓(xùn)練語(yǔ)言模型的語(yǔ)言嵌入空間(embeddingspace),使得LLM能夠以處理文本的方式處理多模態(tài)信息,從而建立文字和感知之間的聯(lián)系,解決機(jī)器人相關(guān)的具身問(wèn)題。 PaLM-E是一個(gè)僅基于解碼器(decoder)的自回歸的生成類(lèi)LLM,在給定前綴(prefix)或提示(prompt)的情況下,能夠自回歸地生成文本補(bǔ)全。PaLM-E輸入為多模態(tài),輸出為純文本。PaLM-E的輸入是多模態(tài)句,由文本和連續(xù)觀察組成,與觀察相對(duì)應(yīng)的多模態(tài)token可以包括圖像(image)、神經(jīng)3D表示(neural3Drepresentations)、狀態(tài)(states)。 PaLM-E的模型示意圖和任務(wù)示例

PaLM-E有兩種訓(xùn)練策略。1)各模態(tài)的編碼器和PaLM一起訓(xùn)練,同時(shí)更新參數(shù);2)考慮到LLM在給定合適的提示(prompt)時(shí)能夠表現(xiàn)出很好的推理能力,可以“凍結(jié)(freeze)”LLM,只訓(xùn)練與模態(tài)相關(guān)的編碼器。 完整的PaLM-E訓(xùn)練數(shù)據(jù)集包含數(shù)十個(gè)子訓(xùn)練集,涉及視覺(jué)、語(yǔ)言和具身數(shù)據(jù)。PaLM-E進(jìn)行跨任務(wù)的聯(lián)合訓(xùn)練,其訓(xùn)練集為包含視覺(jué)、語(yǔ)言和具身數(shù)據(jù)。其中,完全混合(fullmixture)的數(shù)據(jù)集由來(lái)自各種任務(wù)的互聯(lián)網(wǎng)規(guī)模的視覺(jué)和語(yǔ)言數(shù)據(jù)組成,通過(guò)設(shè)置采樣頻率,使得其中8.9%的數(shù)據(jù)為具身數(shù)據(jù)。值得注意的是,目前具身數(shù)據(jù)的訓(xùn)練數(shù)據(jù)集還遠(yuǎn)少于圖像和語(yǔ)言訓(xùn)練數(shù)據(jù)集。 AI大模型技術(shù)快速迭代,行業(yè)競(jìng)爭(zhēng)愈發(fā)激烈。在AI大模型領(lǐng)域,各科技廠商能否探索出穩(wěn)定、可持續(xù)的尤其是ToB端的商業(yè)模式并確定合理的產(chǎn)業(yè)鏈定位將會(huì)成為下一階段競(jìng)爭(zhēng)的關(guān)鍵。

谷歌PaLM-E(具身化的多模態(tài)大語(yǔ)言模型)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
兴隆县| 乡城县| 大理市| 临邑县| 新乐市| 嘉禾县| 河池市| 华容县| 三门峡市| 东方市| 东平县| 温州市| 高雄县| 湄潭县| 通许县| 铁岭县| 延川县| 濮阳县| 桦川县| 离岛区| 安福县| 莎车县| 巴南区| 连云港市| 泸西县| 武城县| 高雄县| 都安| 宝丰县| 贵南县| 嵊泗县| 边坝县| 安图县| 苍溪县| 长白| 东辽县| 荆州市| 康马县| 大港区| 台安县| 安溪县|