最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

【花師小哲】當(dāng)代煉金術(shù)(神經(jīng)網(wǎng)絡(luò))前沿(20)——CLIP:打破原圖片分類范式

2023-03-02 10:51 作者:花師小哲-中二  | 我要投稿

這篇論文其實(shí)并不是特別新,我之前也聽說過這個(gè)模型,但是一直沒機(jī)會看。昨天看了之后發(fā)現(xiàn)這篇文章的想法真的是革命性的,于是打算講一下。

這篇文章就是CLIP

雖然從標(biāo)題好像看不出這縮寫怎么來的

其實(shí)沒有看的主要原因是這是一篇計(jì)算機(jī)視覺的相關(guān)論文,雖然其實(shí)我也不是NLPer(NLP:自然語言處理),但研究方向還是主要借鑒NLP的成果,所以一般看的論文除了自己的小領(lǐng)域就主要是語言模型了,而視覺的論文真的看的很少。

1.計(jì)算機(jī)視覺CV

趁這個(gè)機(jī)會介紹一下計(jì)算機(jī)視覺吧。大家都知道,AI發(fā)展經(jīng)歷多次大起大落(一般認(rèn)為是三起三落),在這個(gè)過程中,符號主義、專家系統(tǒng)、甚至于神經(jīng)網(wǎng)絡(luò)都可以說只不過是在某一小段時(shí)間內(nèi)很火而已,那么在AI屆有沒有什么方法或者領(lǐng)域過的一直還可以呢?有的,就是計(jì)算機(jī)視覺。

據(jù)說在計(jì)算機(jī)問世后不久,圖靈設(shè)計(jì)了很多能生成很多奇妙花紋的程序,然后一位大佬認(rèn)為這玩意比人強(qiáng)多了,那破解個(gè)人類視覺的問題不是小菜一碟?于是他讓自己的研究生搞,以為一晚上就能搞定,結(jié)果一語成讖,CV的很多問題至今還在研究中??梢?,在AI誕生之初,CV就已經(jīng)是一個(gè)很重要的方向了。

CV研究的范圍非常的廣,而且在神經(jīng)網(wǎng)絡(luò)火起來之前一直有各種各樣的研究,而且有非常多的優(yōu)美的數(shù)學(xué)方法。在神經(jīng)網(wǎng)絡(luò)出現(xiàn)后,CV也沒有被冷落,CNNGAN等方法出現(xiàn),一直到最新的diffusion模型,可以說一直有能搞的東西。

當(dāng)然,從發(fā)展來看,CV目前是被NLP壓了一頭,現(xiàn)在還是語言模型更加出名,包括前不久微軟公布了多模態(tài)模型KOSMOS-1,雖然它也包括視覺,但基底模型依然是語言模型,未來的很多多模態(tài)大模型可能也都要以語言模型為主體了(但也不好說,畢竟多模態(tài)還是有待深入研究的)

KOSMOS-1

2.傳統(tǒng)圖片分類

圖片分類可以說是現(xiàn)代計(jì)算機(jī)視覺的基礎(chǔ)性問題,你只有從一張圖片中認(rèn)出來一些物體,才能進(jìn)行下一步的工作,例如畫個(gè)框框、進(jìn)行追蹤、對圖片中多物體的關(guān)系進(jìn)行描述等。

神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)的一種,機(jī)器學(xué)習(xí)一般又叫統(tǒng)計(jì)機(jī)器學(xué)習(xí),換句話說,從統(tǒng)計(jì)中獲得規(guī)律。

最初的用神經(jīng)網(wǎng)絡(luò)來做圖片分類就是這個(gè)思路。例如我們要做貓狗分類,就選取很多貓的照片和很多狗的照片讓計(jì)算機(jī)去學(xué)習(xí),就像我們對一個(gè)剛開始認(rèn)識世界的孩子指著幾只狗說:孩子,這是狗,記住了嗎。

這樣的架構(gòu)已經(jīng)被使用很多年了,你想做幾類個(gè)體的分類就需要有多少個(gè)類別標(biāo)簽,現(xiàn)在比較大的高質(zhì)量數(shù)據(jù)集ImageNet就有1000個(gè)類別,涵蓋了很多常用類別,于是一些大模型就可以在ImageNet上先訓(xùn)練,然后微調(diào)時(shí)只需要自己關(guān)注的少數(shù)標(biāo)簽就可以,換句話說先大規(guī)模訓(xùn)練再做減法。

但是這套架構(gòu)仍然還是太死板了,ImageNet雖然很大、質(zhì)量很高,但仍然需要很多人不斷地進(jìn)行人工分類,而現(xiàn)實(shí)很多情況要復(fù)雜的多。

3.打破原有范式,一切回歸語言

CLIP要做的就是推翻原有范式。其實(shí)CLIP的想法也不是很復(fù)雜,即我們?yōu)槭裁床唤柚谧匀徽Z言來做處理呢?

回想我們?nèi)祟?,我們看到一張圖片就知道它的類別,但是在很多情況下,我們并不是看到一只狗或一只貓,就直接吐出“狗”“貓”,相反,我們都是在一句話中提到狗和貓的,例如“哇,那邊那只貓好可愛啊”

換句話說,其實(shí)沒必要再找人去標(biāo)記大量圖片,日常生活中這樣的基于視覺的分類時(shí)時(shí)刻刻都在發(fā)生。所以獲得數(shù)據(jù)集也很簡單,如圖:

沒錯(cuò),我就是為了這碟醋(自制梗圖)包了這盤餃子(專欄)

對于上述圖片,我們就可以提取圖片和文字,并且認(rèn)為它們是“匹配”的。這樣的數(shù)據(jù)對非常多,論文作者提取了4億對。

接下來的事情就很簡單了——進(jìn)行圖片和描述文字的“對齊”,用的預(yù)訓(xùn)練方法是對比學(xué)習(xí)。對比學(xué)習(xí)參考:

【花師小哲】當(dāng)代煉金術(shù)(神經(jīng)網(wǎng)絡(luò))前沿(6)——對比學(xué)習(xí)

與之前的對比學(xué)習(xí)不同,這里要做的是使得圖片和其相符的文字描述之間的距離盡可能近,與不符的文字描述之間的距離盡可能遠(yuǎn)。

在實(shí)際使用的時(shí)候,只需要從圖片找相似的類別標(biāo)簽就可以了,在實(shí)際使用時(shí)可以指定任意數(shù)量的標(biāo)簽,相比之前的方法可靈活太多了。

當(dāng)然,實(shí)際操作還是比我說的稍微復(fù)雜一點(diǎn),但基本思路就是這樣。

4.不足

作者原論文就花了極大的篇幅來說明這種方法的問題。但其實(shí)這些問題基本上都是語言模型也有的問題,例如無監(jiān)督數(shù)據(jù)集存在的bias等。而且由于數(shù)據(jù)集沒有人工審查,所以有很多圖文不符的情況會影響性能(像我就是這樣,我QQ空間里很喜歡這樣搞,主要是能把兩個(gè)話題用一條說說搞定)。

但瑕不掩瑜,總體來說,這篇文章的想法真的是革命性的,也再次引證了“語言”的強(qiáng)悍能力(維特根斯坦廚狂喜好吧,包括微軟的MLLM論文也引用了維特根斯坦的名言)

對了,聽說今天OpenAI放出了ChatGPT的API,并且還有新模型要發(fā)布了。

【花師小哲】當(dāng)代煉金術(shù)(神經(jīng)網(wǎng)絡(luò))前沿(20)——CLIP:打破原圖片分類范式的評論 (共 條)

分享到微博請遵守國家法律
梨树县| 乌拉特后旗| 六枝特区| 湖南省| 浙江省| 马关县| 阜城县| 武乡县| 宽城| 黑水县| 仲巴县| 连山| 金阳县| 嘉峪关市| 渝中区| 类乌齐县| 奎屯市| 平果县| 韶关市| 临武县| 宜都市| 阆中市| 嘉峪关市| 镶黄旗| 拉萨市| 扎囊县| 赤水市| 平江县| 进贤县| 加查县| 湖南省| 信阳市| 巴彦县| 岑溪市| 九江县| 涪陵区| 闵行区| 通山县| 南安市| 双牌县| 江源县|