手機站首頁散文詩歌雜文隨筆日記小小說

散文網(wǎng) » 科技 »學(xué)習(xí) » 【花師小哲】鑒定網(wǎng)絡(luò)熱門（？）AI（4）——多模態(tài)大模型

【花師小哲】鑒定網(wǎng)絡(luò)熱門（？）AI（4）——多模態(tài)大模型

2023-03-10 16:53 作者:花師小哲-中二 0人讀過 | 我要投稿

據(jù)說GPT-4下周就要出場了，并且OpenAI已經(jīng)在3.8發(fā)布了一篇大炸彈做預(yù)熱了，那么連同這篇文章讓我么來看看最近多模態(tài)大模型有什么新的進展吧。

0.先介紹概念

簡要介紹一下吧，主要是相比于神經(jīng)網(wǎng)絡(luò)前沿，這個欄目（計劃是）更加閑談一些。

首先是大模型，其實很簡單，就是規(guī)模非常大的模型，據(jù)說新的標準下一千億以上的參數(shù)才能稱自己是大語言模型了。

現(xiàn)在最大的模型參數(shù)量應(yīng)該是還不足2T（兩萬億）的，并且超過1T的模型基本都是MoE了，實際運行的參數(shù)還遠沒有那么大。所以之前網(wǎng)傳的GPT-4將有100萬億應(yīng)該是謠言（小導(dǎo)師告訴我們的，我就信了，其實最近相關(guān)論文讀的多了，也覺得不要太可能，主要是一下提升太多，除非真的是什么硬件上的超級黑科技）。

但多模態(tài)應(yīng)該是沒跑了，畢竟KOSMOS-1已經(jīng)表明微軟已經(jīng)和OpenAI在微調(diào)一些多模態(tài)大模型了。

多模態(tài)簡單來說就是你既可以輸入文字又可以輸入圖片、視頻啥的。大家知道ChatGPT目前輸入只支持文字，是個比較純正的語言大模型，你不能放張圖片進去問它這是什么動物的。多模態(tài)就是試圖解決這個問題。

上面出現(xiàn)的一些詞匯（MoE、多模態(tài)等）可以在我以往的一些專欄中找到，稍微放幾個鏈接：

【花師小哲】當代煉金術(shù)（神經(jīng)網(wǎng)絡(luò)）前沿（18）——多模態(tài)思維鏈戰(zhàn)勝大模型？

【花師小哲】當代煉金術(shù)（神經(jīng)網(wǎng)絡(luò)）前沿（16）——語言模型的其他出路

ok，下面就來介紹幾個多模態(tài)大模型吧。

1.KOSMOS-1

直接就叫自己的模型宇宙1號，可見微軟對這個模型還是比較滿意的。

不過很明顯，這個模型是完全基于大語言模型主體的，實際上它是將其他模態(tài)想辦法轉(zhuǎn)變成能夠適應(yīng)大語言模型輸入的形式的。

或者說，對于KOSMOS-1來說，其實輸入也只是語言，只不過多了一些叫做“圖片”“聲音”這樣的外語罷了?；蛟S正如文章所引用的名言：“The limits of my language means the limits of my world.Ludwig Wittgenstein”（維特根斯坦廚狂喜好吧，就不翻譯了，真有不懂得朋友可以去查，這里就神秘一些[?]）

2.PaLM-E

谷歌當然也不會放過這個機會，也推出了PaLM-E，而且看起來甚至更強一些。

畢竟在OpenAI推出1750億的大模型GPT-3之后，谷歌也搞出了5400億的大模型PaLM。PaLM-E其實就是PaLM+220億的ViT（一個視覺大模型）。

可見，PaLM-E是真的做了多模態(tài)融合的，而且參數(shù)量也非常恐怖（5620億）了，不過，主體依然是語言大模型。

除了語言和視覺模態(tài)外，輸入還可以是狀態(tài)模態(tài)，這意味著，PaLM-E是可以做機器人控制的，而且可能還是主要“炫技”方向。

對于一個機器人，我們可以通過一條命令（例如“幫我去找到某個抽屜里的一包薯片”）來讓機器人僅僅依靠視覺信息自行完成走路、翻不同的抽屜、識別哪包零食是薯片、取出、送回等一系列操作的。

如果說ChatGPT是一個面向“開放域”問答（就是你可以問它任何領(lǐng)域的問題，不需要局限在例如醫(yī)學(xué)等領(lǐng)域）的AI的話，PaLM-E是可以面向“開放域”決策的（可能這時候很多自媒體就說終結(jié)者來了啥的）。

3.Visual ChatGPT

開篇提到的論文。其實看名字就理解的八九不離十了，沒錯，依然是讓語言模型當絕對C位，其它模態(tài)其實是為了語言模型服務(wù)的。只不過這里的語言模型是ChatGPT而已。

從圖片就更明顯了，ChatGPT的核心其實基本沒動，就是往外加配件（包括Stable Diffusion，還有很多比較平常的工具，例如濾鏡、PS啥的）。關(guān)于大模型使用工具的論文也有介紹過，這里也不多展開：

其實從想法上這個論文其實沒有太創(chuàng)新的地方（當然工程上難度還是有的），不過有ChatGPT熱度加持，還是讓人有興趣研究的。而且好像是微軟亞洲研究院做的，作者好像都是中國人或華人。

這個模型最難的部分當然就是那個prompt manager了，里面還是很復(fù)雜的，即如何協(xié)調(diào)輸入、工具、歷史信息等。畢竟，Visual ChatGPT也是要記住歷史信息的（硬性記住），例如可以對一張圖片做很多不同的處理（加濾鏡等）。你可以認為是個懶人PhotoShop。

那么GPT-4性能究竟會如何呢？沒辦法，繼續(xù)等唄。

標簽：微軟谷歌 AI 大模型多模態(tài)PaLM ChatGPT

【花師小哲】鑒定網(wǎng)絡(luò)熱門（？）AI（4）——多模態(tài)大模型的評論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

【花師小哲】鑒定網(wǎng)絡(luò)熱門（？）AI（4）——多模態(tài)大模型

【花師小哲】鑒定網(wǎng)絡(luò)熱門（？）AI（4）——多模態(tài)大模型的評論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

【花師小哲】鑒定網(wǎng)絡(luò)熱門（？）AI（4）——多模態(tài)大模型

本文作者的其他文章

【花師小哲】鑒定網(wǎng)絡(luò)熱門（？）AI（4）——多模態(tài)大模型的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

【花師小哲】鑒定網(wǎng)絡(luò)熱門（？）AI（4）——多模態(tài)大模型

【花師小哲】鑒定網(wǎng)絡(luò)熱門（？）AI（4）——多模態(tài)大模型的評論 (共條)