Transformer一作開源多模態(tài)Fuyu-8B,讀數(shù)據(jù)圖表都可以
今年,不少公司宣稱自己可以做多模態(tài),xx大模型支持多模態(tài)!如此這般說道。但是,本質(zhì)上都是把現(xiàn)有的公開的模型做了一些整合罷了。都沒有從本質(zhì)的角度去思考多模態(tài)可以做什么,要做什么?直到今年的nougat出來之后,大家發(fā)現(xiàn),多模態(tài)最重要的還是在文件解析領(lǐng)域。大家終于找到了多模態(tài)的落腳點和一些可行的方法。
但愿什么時候,某些頭部公司可以踏實思考如何幫助消費者,或者是人道主義的角度出發(fā)去做事情,而不是想著怎么增長財報,那些頭部公司才有可能真的領(lǐng)先世界。
1.?總結(jié)
Transformer一作Ashish?Vaswani所在的AI公司Adept,發(fā)布了Fuyu-8B,這是一個多模態(tài)模型的小版本,為其產(chǎn)品賦能。Fuyu-8B的特點包括:具有比其他多模態(tài)模型更簡單的架構(gòu)和訓(xùn)練程序;從頭開始為數(shù)字助手設(shè)計,支持任意圖像分辨率,能夠回答關(guān)于圖表和圖形的問題,并在屏幕圖像上進(jìn)行精細(xì)的定位;響應(yīng)速度快,對于大圖像的響應(yīng)時間不到100毫秒;盡管針對特定用例進(jìn)行了優(yōu)化,但在標(biāo)準(zhǔn)的圖像理解基準(zhǔn)測試中表現(xiàn)良好。
2.?詳細(xì)介紹
模型架構(gòu):Adept致力于為知識工作者構(gòu)建一個普遍智能的助手。為了實現(xiàn)這一目標(biāo),模型需要能夠理解用戶的上下文并代表用戶采取行動。Fuyu的架構(gòu)是一個普通的Decoder-only變壓器,沒有圖像編碼器。圖像塊直接線性投影到變壓器的第一層,繞過嵌入查找。

性能評估:為了檢查Fuyu-8B的架構(gòu)變化,選擇了四個最常用的圖像理解數(shù)據(jù)集進(jìn)行評估。Fuyu模型在這些指標(biāo)上表現(xiàn)良好,不過這些數(shù)據(jù)集主要關(guān)注自然圖像,和我們實際場景有所不同。

功能:Fuyu模型具有多種酷炫的功能,包括圖表、圖形和文檔理解。它可以理解復(fù)雜的視覺關(guān)系,回答傳統(tǒng)圖表中的非平凡、多跳問題,理解文檔和復(fù)雜的關(guān)系查詢。
圖表理解?(Chart?Understanding)
Fuyu-8B模型對圖表和圖形的理解能力尤為出色,這對于幫助知識工作者尤為重要。
復(fù)雜視覺關(guān)系理解:例如,模型可以追蹤圖表中演員和節(jié)目之間的連接并進(jìn)行計數(shù)。

傳統(tǒng)圖表的多跳問題回答:例如,模型可以回答諸如“查找序列24,_,32,33,42的缺失數(shù)據(jù)?”這樣的問題。

Fuyu-8B模型還能夠理解各種文檔,無論是復(fù)雜的信息圖還是舊的PDF文件。
復(fù)雜信息圖理解:例如,當(dāng)問及“哪個加利福尼亞的地鐵有良好的工作前景?”時,模型的答案是“洛杉磯”。
舊PDF文件理解:例如,當(dāng)詢問“包裝紡錘的容量是多少?”時,模型的答案是“118包”。

此外,F(xiàn)uyu-8B模型還可以理解關(guān)于科學(xué)圖表的復(fù)雜關(guān)系查詢。
關(guān)系查詢:例如,當(dāng)問及“一個龍骨狀的橫截面看起來像什么字母?”時,模型的答案是“字母V”。

基于Fuyu的內(nèi)部模型具有與產(chǎn)品相關(guān)的額外功能。
高分辨率圖像的OCR能力:模型可以在高分辨率圖像上可靠地執(zhí)行OCR。

文本和UI元素的細(xì)粒度定位:模型可以在這些圖像內(nèi)部進(jìn)行細(xì)粒度的定位。

關(guān)于UI圖像的問題回答:例如,模型可以與Google?Maps互動,正確回答問題。

3.? 觀點
從學(xué)術(shù)角度看,它展示了如何通過簡化架構(gòu)來實現(xiàn)高效的多模態(tài)模型,這可能會激發(fā)更多的研究者探索這一領(lǐng)域。
從商業(yè)角度看,F(xiàn)uyu-8B的快速響應(yīng)和多功能性使其成為數(shù)字助手和其他AI應(yīng)用的理想選擇。其簡化的架構(gòu)和訓(xùn)練程序不僅降低了部署和擴(kuò)展的難度,而且還提高了模型的可解釋性和透明度。之后應(yīng)該不少大模型公司也會跟進(jìn)吧。
特邀作者:日本早稻田大學(xué)計算機(jī)系博士? 王軍杰