阿里巴巴提出mPLUG-Owl2:新的多模態(tài)全能模型
mPLUG-Owl2是一個(gè)創(chuàng)新的多模態(tài)大型語言模型(MLLM),專注于通過模塊化設(shè)計(jì)和模態(tài)適應(yīng)模塊來增強(qiáng)模態(tài)協(xié)作并減少模態(tài)干擾。在多模態(tài)任務(wù)中,尤其是在圖像描述和視頻理解方面,mPLUG-Owl2展現(xiàn)出了卓越的性能,例如在MMHal-Bench測試中,相比其他模型,mPLUG-Owl2在減少幻覺方面表現(xiàn)更為出色,尤其是在屬性和計(jì)數(shù)類別中。這些結(jié)果不僅在學(xué)術(shù)上驗(yàn)證了模態(tài)協(xié)作對提升文本任務(wù)性能的重要性,如理解、知識(shí)和推理,也預(yù)示了mPLUG-Owl2在多模態(tài)基礎(chǔ)模型發(fā)展中的重要潛力。
而且,是開源的,模型權(quán)重是可以直接在github里面找到的。
一個(gè)新的多模態(tài)全能戰(zhàn)士:

Readpaper鏈接:https://readpaper.com/paper/4820196473576620033
github鏈接:https://github.com/X-PLUG/mPLUG-Owl/tree/main/mPLUG-Owl2
Demo鏈接:https://modelscope.cn/studios/damo/mPLUG-Owl2/summary
詳細(xì)介紹
共享功能模塊
mPLUG-Owl2的核心是其模塊化設(shè)計(jì),它通過共享功能模塊促進(jìn)不同模態(tài)之間的協(xié)作。這種設(shè)計(jì)允許模型在處理多種類型的輸入數(shù)據(jù)時(shí),如圖像、文本和聲音,能夠更好地整合和理解跨模態(tài)信息。
模態(tài)適應(yīng)模塊
這里的nrom和W的映射層,針對視覺和文本的模態(tài)都做了單獨(dú)的處理。,其他的就和別模型的一樣了。
●?交互與特異性保留:?mPLUG-Owl2的模態(tài)適應(yīng)模塊允許模型在保持每種模態(tài)特有特征的同時(shí),實(shí)現(xiàn)不同模態(tài)之間的有效交互。這意味著模型能夠處理更復(fù)雜的任務(wù),如圖像中的對象識(shí)別與描述,同時(shí)理解相關(guān)的文本信息。
●?信息密度平衡:?該模型處理了不同模態(tài)間信息密度不均的問題,例如,圖像通常包含大量的非結(jié)構(gòu)化數(shù)據(jù),而文本則是高度結(jié)構(gòu)化的。模態(tài)適應(yīng)模塊幫助模型在這些不同的信息密度之間找到平衡。

從下圖的消融實(shí)驗(yàn)也可以看出,沒有模態(tài)適應(yīng)模塊的時(shí)候,attention在視覺和文本的分布是不均勻的,這也直接體現(xiàn)了小改進(jìn)帶來的性能大提升。

任務(wù)多樣性:?mPLUG-Owl2在多種多模態(tài)任務(wù)中表現(xiàn)出色,這些任務(wù)可能包括圖像標(biāo)注、視頻內(nèi)容理解和跨模態(tài)翻譯等。
性能提升:?特別是在需要深層次理解和推理的任務(wù)上,如視頻問答和圖像-文本匹配,mPLUG-Owl2展現(xiàn)了其優(yōu)越的性能,這表明了模態(tài)協(xié)作在提升整體模型性能方面的關(guān)鍵作用。

觀點(diǎn)
學(xué)術(shù)上,這樣的思路也可以拓展到更多模態(tài),比如音頻等。而且只需要一個(gè)強(qiáng)大LLM作為基礎(chǔ)模型就可以了。
商業(yè)上,也可以嘗試一下可不可以使用類似的結(jié)構(gòu)復(fù)現(xiàn)出GPT-4V類似的效果。
特邀作者:日本早稻田大學(xué)計(jì)算機(jī)系博士? 王軍杰