【花師小哲】鑒定網(wǎng)絡(luò)熱門(?)AI(8)——計(jì)算機(jī)視覺也要終結(jié)了?
雖然最近真的很忙,我也在動(dòng)態(tài)提過專欄會(huì)暫緩更新。雖然真的最近有些有意思的論文,但現(xiàn)在還是先放一放。
不過昨天各路公眾號(hào)都在發(fā)一篇論文,標(biāo)題一般是取“CV(計(jì)算機(jī)視覺)終結(jié)了”之類的,嗯,我發(fā)到朋友圈后有師弟還信了。所以我們還是講一講這篇論文到底是在干什么


1.大模型與大統(tǒng)一
隨著現(xiàn)在模型規(guī)模的急劇擴(kuò)大,另一個(gè)趨勢(shì)就是大統(tǒng)一。
很多人都在說(包括這篇論文自己也在說)自然語言處理(NLP)已經(jīng)率先邁向大統(tǒng)一模型了,其實(shí)指的就是ChatGPT和GPT-4等模型。
不過要說大統(tǒng)一,其實(shí)更早就有了,即T5

從上面這張圖其實(shí)可以很清楚地看到T5的思路,即將一切NLP任務(wù)轉(zhuǎn)化成語言生成的任務(wù)。這其實(shí)不難理解,舉幾個(gè)例子:
(1)對(duì)于機(jī)器翻譯,例如輸入是英文,輸出是中文,中文本身就是文本
(2)對(duì)于文本分類,例如分析一段文本的感情。原先的做法可能是輸出層有N個(gè)神經(jīng)元,分別代表高興、悲傷等,然后我們根據(jù)輸出層來判定到底是哪一類。但是不管是“高興”“悲傷”甚至是0或者1,都可以讓一個(gè)模型直接說出來
(3)對(duì)于公式證明,輸出雖然包含各種符號(hào),但依然是沒有離開文本的范疇。包括我們?nèi)祟愖鏊阈g(shù)題也可以用文本來表述
從上面的例子中我們可以看到,一切自然語言處理任務(wù)確實(shí)都可以轉(zhuǎn)化成文本生成任務(wù),這是沒有什么阻礙的。
而GPT模型從誕生起專注的就是文本生成,所以在別人研究BERT等模型的時(shí)候才能默默發(fā)展(雖然GPT-3出來的時(shí)候也有人知道其強(qiáng)大了,但當(dāng)時(shí)并沒有引起足夠多人的注意)

2.大道至簡(jiǎn)與大統(tǒng)一
我們?cè)倩貧wGPT,GPT雖然要做大一統(tǒng),但在整體架構(gòu)上其實(shí)并沒有什么非常新奇的技術(shù)(主要難點(diǎn)還是在工程層面),畢竟不同于BERT等巧妙的預(yù)訓(xùn)練策略,GPT的預(yù)訓(xùn)練策略極其簡(jiǎn)單——預(yù)測(cè)下一個(gè)詞。
這是RNN出現(xiàn)的時(shí)候就有的任務(wù)。我們看到的ChatGPT的輸出其實(shí)就是對(duì)于一個(gè)輸入,先輸出一個(gè)詞,然后將這個(gè)詞作為輸入再預(yù)測(cè)下一個(gè)詞,一個(gè)個(gè)預(yù)測(cè)出來的(當(dāng)然稍有不同,但基本思路是這樣)。當(dāng)然,更準(zhǔn)確的說法不是輸出詞,而是輸出token,這里就不展開。
然后這種大道至簡(jiǎn)的方案能不能用于計(jì)算機(jī)視覺呢?Meta的這篇論文就是要搞這個(gè)的

3.segment anything
這篇論文的題目真的霸氣,我印象中由兩個(gè)單詞組成的論文還有就是《Random Forest》(隨機(jī)森林)了,不過隨機(jī)森林的論文是早些年的大牛寫的。不清楚計(jì)算機(jī)領(lǐng)域有沒有一個(gè)單詞的論文,問了new bing它也不知道怎么找。
segment anything模型(后簡(jiǎn)稱SAM)預(yù)訓(xùn)練要做的事情也只有一件——分割一切。

應(yīng)該比較好理解,一張圖片中往往由多個(gè)組成部分,例如有兩只貓和背景,我們就可以把貓和背景分別用不同顏色框選出來。熟悉PS之類的朋友應(yīng)該知道,其實(shí)就是一種自動(dòng)摳圖。
分割任務(wù)也是CV里面很基礎(chǔ)的一件事情了,并且相應(yīng)地能做很多事情。例如做分類的話我們可以根據(jù)這些分割出來的圖像進(jìn)一步處理,做目標(biāo)檢測(cè)等也是一樣。
當(dāng)然,分割存在一些問題,一個(gè)很顯然的例子就是我們到底要分的多么細(xì),例如我們是要框選一只完整的貓還是要框選一只貓的眼睛呢?單純地分割實(shí)際上是沒有意義的,我們需要提示(prompt),沒錯(cuò),又和ChatGPT搭上邊了。

其實(shí)可以看到,整體思路也不難,對(duì)于一張圖片,在沒有prompt的情況下做全分割就好了,有了prompt的情況下就可以做些更有意義的事情了。例如一些自動(dòng)摳圖軟件可以支持的內(nèi)外畫點(diǎn)、框選、涂抹等輔助摳圖的提示,當(dāng)然更重要的還是基于語言的提示。輸入一張照片并且要求框選黑耳朵貓,模型就可以做。

4.大數(shù)據(jù)與大統(tǒng)一
當(dāng)然,要實(shí)現(xiàn)大統(tǒng)一當(dāng)然需要大模型或大數(shù)據(jù)集的支持(在Meta開源的LLaMA中,也提到大量的訓(xùn)練集也一樣重要),要訓(xùn)練好SAM模型,也需要大量數(shù)據(jù)。
于是Meta做了有史以來最大的分割數(shù)據(jù)集,一共有1100萬張圖片。當(dāng)然,要全部手工標(biāo)注不太現(xiàn)實(shí),所以本文也用半自動(dòng)的方法進(jìn)行了標(biāo)注。

5.結(jié)語
當(dāng)然在CV里做大統(tǒng)一其實(shí)還是比NLP困難的,例如這種方法實(shí)際上仍然停留在圖像的處理上,目前看來還做不來生成任務(wù)。
不過其實(shí)很多CV任務(wù)也可以轉(zhuǎn)化為生成任務(wù)的,例如風(fēng)格遷移、圖像上色等都有端到端的模型,也許CV未來也可以用這樣統(tǒng)一的架構(gòu)進(jìn)行統(tǒng)一?
最后說一下,我對(duì)CV不是很熟,所以對(duì)于這件事對(duì)做CV的人來說影響有多大還不是很清楚,但“CV終結(jié)了”我個(gè)人認(rèn)為還是有些過早了。
最后再說一句,看過我比較早專欄的朋友可能知道我之前主要發(fā)哲學(xué)專欄(現(xiàn)在太忙了都沒什么時(shí)間看哲學(xué)書了),里面提到當(dāng)下的哲學(xué)發(fā)展其實(shí)是大框架崩潰后的情況,很多哲學(xué)家都不再嘗試做一個(gè)統(tǒng)一一些的理論了,不知道AI的發(fā)展能不能稍微刺激一下。