最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

【花師小哲】當(dāng)代煉金術(shù)(神經(jīng)網(wǎng)絡(luò))前沿(24)——往語言大模型里塞視覺模態(tài)

2023-03-14 10:34 作者:花師小哲-中二  | 我要投稿

GPT-4將是多模態(tài)語言模型似乎已經(jīng)實(shí)錘了,但是大模型是他們的,一般的研究人員又訓(xùn)練不起自己的大模型,只能用著大模型API勉強(qiáng)過活。這種情況下,想要做多模態(tài)似乎只能在大語言模型上修修補(bǔ)補(bǔ)了。下面這篇論文就是一篇比較典型的論文。(其實(shí)是做了梗圖后覺得還是寫寫專欄吧)

1.把其他模態(tài)往大語言模型里塞

現(xiàn)在已經(jīng)有非常多的通過給大語言模型增加配件的方法來使得其具有多模態(tài)能力的嘗試了,具體可見如下鏈接中(包括多模態(tài)一些概念也可以在里面找到):

【花師小哲】鑒定網(wǎng)絡(luò)熱門(?)AI(4)——多模態(tài)大模型

這篇前兩個(gè)都是多模態(tài)大模型,第三個(gè)就是給ChatGPT加配件了。

但不管怎么說,這些方法依然是以大語言模型為主體,對(duì)于大語言模型來說,其他的模態(tài)和東西更像是一種“外語”,換句話說,其實(shí)都像是硬把其他模態(tài)往大語言模型里塞,只是有人塞得好,有人塞得不好一樣。

塞得好不好是很影響性能的,見如下梗圖:

來源:《淪落者之夜》,安利一下

圖中的白發(fā)女孩是盲人。這說明如果我們對(duì)視覺的處理不夠好的話,大語言模型實(shí)際上是完全無法從視覺模態(tài)中獲得有用的信息的。

2.視覺問答

本文研究的問題是視覺問答,大體就是我放入一張照片,然后問模型一些問題。

例如我有一張貓和狗的照片,我可以把照片和問題“在這張圖中,貓?jiān)诠返淖筮呥€是右邊”一起輸入一個(gè)模型中,然后模型會(huì)告訴我“左邊”或者“右邊”。

傳統(tǒng)的方法有很多,例如通過一個(gè)視覺處理模塊,獲得一些知識(shí)或圖片描述,然后可以通過外部知識(shí)庫來進(jìn)行處理。

有了大語言模型之后,很多人就用它直接代替外部知識(shí)庫了。問題就轉(zhuǎn)變成如何將視覺模態(tài)更好的塞進(jìn)大語言模型里了。

圖片描述往往是不夠的,論文中給的一個(gè)例子:

圖中的樹們:我們呢?

對(duì)于這張圖片,視覺處理模塊給出的表述是“一群人走在路上”,這當(dāng)然是堆圖片整體的合理描述,但我要是問那棵樹的品種呢?這種情況下,這個(gè)描述對(duì)于大語言模型就是純粹的干擾了。

3.小模型提示大模型

本文的做法依然是一種改進(jìn)大語言模型prompt的做法。

這里再解釋一下,對(duì)于大語言模型,我們是可以通過給出一些例子等方式來使得模型對(duì)某一問題的處理更好的。例如我們先給出幾段機(jī)器翻譯的例子,再給我們需要翻譯的句子,往往效果會(huì)好很多。簡(jiǎn)單來說,這些輔助文本就是prompt,寫好prompt能夠幫助我們更好地使用大模型。

整體框架

簡(jiǎn)單來說,本文訓(xùn)練了一個(gè)小模型用于處理視覺模態(tài),這個(gè)視覺模態(tài)會(huì)輸出一些可以幫助改進(jìn)prompt的,主要是往prompt里增加示例(和問題相似的一些已知問題)和候選答案,就像是讓大語言模型做選擇題一樣。當(dāng)然,大語言模型也可以不從候選項(xiàng)中選擇答案,而是根據(jù)問題本身進(jìn)行合理推理(雖說是視覺問答,但視覺不總是有用的,甚至可能是干擾項(xiàng))。

作者認(rèn)為這種用小模型提示大模型可以成為一種新的范式

4.討論

可,問題是,這種范式真的有競(jìng)爭(zhēng)力嗎?

再回到文章開頭,之所以會(huì)有這類方式出現(xiàn),是因?yàn)閷?duì)于很多人來說,大模型是訓(xùn)練不起的,手頭能用的硬件就那么多,所以這種做法更像是退而求其次。

多模態(tài)大模型還在蓬勃發(fā)展中,并且已經(jīng)展現(xiàn)出強(qiáng)大的實(shí)力,而這種“小模型提示大模型”范式還是存在對(duì)癥下藥的問題,即對(duì)于具體任務(wù)要設(shè)計(jì)新的小模型。

不管怎么說吧,大模型的發(fā)展在一步步地改變AI的整個(gè)研究范式,未來會(huì)如何發(fā)展依然是不明確的,但只有走下去才能看到未來。


【花師小哲】當(dāng)代煉金術(shù)(神經(jīng)網(wǎng)絡(luò))前沿(24)——往語言大模型里塞視覺模態(tài)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
循化| 乐至县| 子洲县| 双峰县| 崇明县| 商丘市| 洛浦县| 平顺县| 漳平市| 炎陵县| 启东市| 焦作市| 宁安市| 南昌市| 邓州市| 抚顺县| 绥滨县| 浦县| 甘南县| 开封市| 石景山区| 四平市| 营口市| 寻乌县| 寿宁县| 淮北市| 绥化市| 中阳县| 寻甸| 林周县| 临江市| 安国市| 永宁县| 桐梓县| 平遥县| 商洛市| 托克托县| 铁岭市| 灵武市| 甘肃省| 固安县|