散文網(wǎng) » 科技 »學(xué)習(xí) » 【花師小哲】當(dāng)代煉金術(shù)（神經(jīng)網(wǎng)絡(luò)）前沿（24）——往語言大模型里塞視覺模態(tài)

【花師小哲】當(dāng)代煉金術(shù)（神經(jīng)網(wǎng)絡(luò)）前沿（24）——往語言大模型里塞視覺模態(tài)

2023-03-14 10:34 作者:花師小哲-中二 0人讀過 | 我要投稿

GPT-4將是多模態(tài)語言模型似乎已經(jīng)實(shí)錘了，但是大模型是他們的，一般的研究人員又訓(xùn)練不起自己的大模型，只能用著大模型API勉強(qiáng)過活。這種情況下，想要做多模態(tài)似乎只能在大語言模型上修修補(bǔ)補(bǔ)了。下面這篇論文就是一篇比較典型的論文。（其實(shí)是做了梗圖后覺得還是寫寫專欄吧）

1.把其他模態(tài)往大語言模型里塞

現(xiàn)在已經(jīng)有非常多的通過給大語言模型增加配件的方法來使得其具有多模態(tài)能力的嘗試了，具體可見如下鏈接中（包括多模態(tài)一些概念也可以在里面找到）：

【花師小哲】鑒定網(wǎng)絡(luò)熱門（？）AI（4）——多模態(tài)大模型

這篇前兩個(gè)都是多模態(tài)大模型，第三個(gè)就是給ChatGPT加配件了。

但不管怎么說，這些方法依然是以大語言模型為主體，對(duì)于大語言模型來說，其他的模態(tài)和東西更像是一種“外語”，換句話說，其實(shí)都像是硬把其他模態(tài)往大語言模型里塞，只是有人塞得好，有人塞得不好一樣。

塞得好不好是很影響性能的，見如下梗圖：

圖中的白發(fā)女孩是盲人。這說明如果我們對(duì)視覺的處理不夠好的話，大語言模型實(shí)際上是完全無法從視覺模態(tài)中獲得有用的信息的。

2.視覺問答

本文研究的問題是視覺問答，大體就是我放入一張照片，然后問模型一些問題。

例如我有一張貓和狗的照片，我可以把照片和問題“在這張圖中，貓?jiān)诠返淖筮呥€是右邊”一起輸入一個(gè)模型中，然后模型會(huì)告訴我“左邊”或者“右邊”。

傳統(tǒng)的方法有很多，例如通過一個(gè)視覺處理模塊，獲得一些知識(shí)或圖片描述，然后可以通過外部知識(shí)庫來進(jìn)行處理。

有了大語言模型之后，很多人就用它直接代替外部知識(shí)庫了。問題就轉(zhuǎn)變成如何將視覺模態(tài)更好的塞進(jìn)大語言模型里了。

圖片描述往往是不夠的，論文中給的一個(gè)例子：

對(duì)于這張圖片，視覺處理模塊給出的表述是“一群人走在路上”，這當(dāng)然是堆圖片整體的合理描述，但我要是問那棵樹的品種呢？這種情況下，這個(gè)描述對(duì)于大語言模型就是純粹的干擾了。

3.小模型提示大模型

本文的做法依然是一種改進(jìn)大語言模型prompt的做法。

這里再解釋一下，對(duì)于大語言模型，我們是可以通過給出一些例子等方式來使得模型對(duì)某一問題的處理更好的。例如我們先給出幾段機(jī)器翻譯的例子，再給我們需要翻譯的句子，往往效果會(huì)好很多。簡(jiǎn)單來說，這些輔助文本就是prompt，寫好prompt能夠幫助我們更好地使用大模型。

簡(jiǎn)單來說，本文訓(xùn)練了一個(gè)小模型用于處理視覺模態(tài)，這個(gè)視覺模態(tài)會(huì)輸出一些可以幫助改進(jìn)prompt的，主要是往prompt里增加示例（和問題相似的一些已知問題）和候選答案，就像是讓大語言模型做選擇題一樣。當(dāng)然，大語言模型也可以不從候選項(xiàng)中選擇答案，而是根據(jù)問題本身進(jìn)行合理推理（雖說是視覺問答，但視覺不總是有用的，甚至可能是干擾項(xiàng)）。

作者認(rèn)為這種用小模型提示大模型可以成為一種新的范式

4.討論

可，問題是，這種范式真的有競(jìng)爭(zhēng)力嗎？

再回到文章開頭，之所以會(huì)有這類方式出現(xiàn)，是因?yàn)閷?duì)于很多人來說，大模型是訓(xùn)練不起的，手頭能用的硬件就那么多，所以這種做法更像是退而求其次。

多模態(tài)大模型還在蓬勃發(fā)展中，并且已經(jīng)展現(xiàn)出強(qiáng)大的實(shí)力，而這種“小模型提示大模型”范式還是存在對(duì)癥下藥的問題，即對(duì)于具體任務(wù)要設(shè)計(jì)新的小模型。

不管怎么說吧，大模型的發(fā)展在一步步地改變AI的整個(gè)研究范式，未來會(huì)如何發(fā)展依然是不明確的，但只有走下去才能看到未來。

標(biāo)簽：人工智能 AI 神經(jīng)網(wǎng)絡(luò)多模態(tài)大模型小模型 prompt 視覺問答大語言模型語言模態(tài)

【花師小哲】當(dāng)代煉金術(shù)（神經(jīng)網(wǎng)絡(luò)）前沿（24）——往語言大模型里塞視覺模態(tài)的評(píng)論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

【花師小哲】當(dāng)代煉金術(shù)（神經(jīng)網(wǎng)絡(luò)）前沿（24）——往語言大模型里塞視覺模態(tài)

【花師小哲】當(dāng)代煉金術(shù)（神經(jīng)網(wǎng)絡(luò)）前沿（24）——往語言大模型里塞視覺模態(tài)的評(píng)論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

【花師小哲】當(dāng)代煉金術(shù)（神經(jīng)網(wǎng)絡(luò)）前沿（24）——往語言大模型里塞視覺模態(tài)

本文作者的其他文章

【花師小哲】當(dāng)代煉金術(shù)（神經(jīng)網(wǎng)絡(luò)）前沿（24）——往語言大模型里塞視覺模態(tài)的評(píng)論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

【花師小哲】當(dāng)代煉金術(shù)（神經(jīng)網(wǎng)絡(luò)）前沿（24）——往語言大模型里塞視覺模態(tài)的評(píng)論 (共條)