LLaVA-1.5升級(jí):只需訓(xùn)練一天的多模態(tài)加持的大模型11個(gè)基準(zhǔn)上達(dá)到SOTA
1.? 總結(jié)

LLaVA-1.5?在多個(gè)方面進(jìn)行了優(yōu)化和改進(jìn),包括改進(jìn)?Vision-Language?連接器、探討不同方面的縮放影響、改進(jìn)模型的回答格式、增加多層感知機(jī)(MLP)視覺(jué)-語(yǔ)言連接器、添加特定任務(wù)的數(shù)據(jù)集等。
這些優(yōu)化使得LLaVA-1.5?在12個(gè)任務(wù)中的11個(gè)上達(dá)到了最新的技術(shù)水平(State?of?the?Art,SoTA),即便其預(yù)訓(xùn)練和指令調(diào)優(yōu)的數(shù)據(jù)相對(duì)較少。
論文:https://readpaper.com/paper/1992345918000441600
Arxiv:https://arxiv.org/abs/2310.03744
項(xiàng)目主頁(yè):https://llava-vl.github.io/
Github:https://github.com/haotian-liu/LLaVA
Demo:https://llava.hliu.cc/

2.?詳細(xì)介紹
2.1?LLaVA?模型簡(jiǎn)介
LLaVA?(Large?Language-and-Vision?Assistant)?是一個(gè)能夠進(jìn)行視覺(jué)和語(yǔ)言多模態(tài)轉(zhuǎn)換的模型,由視覺(jué)編碼器和大型語(yǔ)言模型(Vicuna?v1.5?13B)組成。它通過(guò)端到端的訓(xùn)練,實(shí)現(xiàn)了在視覺(jué)推理能力方面的高性能。

2.2?LLaVA?的挑戰(zhàn)
盡管?LLaVA?在視覺(jué)推理能力方面展現(xiàn)了卓越的性能,但在一些學(xué)術(shù)基準(zhǔn)測(cè)試中,特別是那些需要短格式回答的測(cè)試中,其表現(xiàn)相對(duì)較低。這一挑戰(zhàn)主要源于?LLaVA?沒(méi)有在大規(guī)模數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練。具體來(lái)說(shuō),LLaVA?使用?GPT-4?自動(dòng)生成的?image-text?對(duì)話數(shù)據(jù)進(jìn)行訓(xùn)練,而沒(méi)有利用更大規(guī)模的數(shù)據(jù)進(jìn)行事前學(xué)習(xí)。
2.3?LLaVA?的改進(jìn)
明確指定輸出格式的提示:為了解決短文本?VQA?(Visual?Question?Answering)?和長(zhǎng)文本?VQA?之間的兼容問(wèn)題,研究者在短文本回答中明確指定了輸出格式的提示。例如,通過(guò)在問(wèn)題文本的末尾添加特定的短語(yǔ),如“Q:?{問(wèn)題}?A:?{答案}?!保P湍軌蚧谟脩舻闹甘具m當(dāng)?shù)卣{(diào)整輸出格式。

使用?MLP?作為視覺(jué)-語(yǔ)言連接器:受到自監(jiān)督學(xué)習(xí)性能提升的啟發(fā),研究者使用了兩層?MLP?作為視覺(jué)-語(yǔ)言連接器,以增強(qiáng)連接器的表達(dá)能力。這一改進(jìn)相較于原始的線性投影架構(gòu),顯著提升了?LLaVA?的多模態(tài)能力。
添加特定任務(wù)的數(shù)據(jù)集:為了強(qiáng)化模型在不同能力上的表現(xiàn),研究者不僅添加了?VQA?數(shù)據(jù)集,還專注于?OCR?和區(qū)域級(jí)別識(shí)別的四個(gè)數(shù)據(jù)集。這些數(shù)據(jù)集包括需要廣泛知識(shí)的?VQA(如?OKVQA?和?A-OKVQA)、需要?OCR?的?VQA(如?OCRVQA?和?TextCaps)等。
2.4?結(jié)果
結(jié)果顯示,架構(gòu)更加簡(jiǎn)單的LLaVA-1.5只需要120萬(wàn)公開數(shù)據(jù),即可超越用了14.5億訓(xùn)練數(shù)據(jù)的Qwen-VL和1.3億數(shù)據(jù)的HuggingFace?IDEFICS。其中,13B模型的訓(xùn)練,只需要8個(gè)A100就可以在1天內(nèi)完成。

2.5?和GPT-4V的對(duì)比

3.?觀點(diǎn)
在學(xué)術(shù)上擴(kuò)展了多模態(tài)AI的邊界,其他模態(tài)可以增強(qiáng)文本這個(gè)模態(tài)的表現(xiàn)。而且其實(shí)我覺(jué)得,這應(yīng)該的相互增強(qiáng)的。
在商業(yè)上,可能會(huì)推動(dòng)創(chuàng)建更加智能和互動(dòng)的AI助手和聊天機(jī)器人。例如,在客戶服務(wù)、在線購(gòu)物助手和虛擬導(dǎo)購(gòu)等領(lǐng)域,LLaVA可以通過(guò)理解用戶的視覺(jué)和語(yǔ)言查詢來(lái)提供更精確和個(gè)性化的服務(wù)。
不過(guò),LLaVA-1.5?仍然面臨一些挑戰(zhàn),例如計(jì)算成本、處理多圖像的能力、復(fù)雜指令的執(zhí)行能力等。
特邀作者:早稻田大學(xué)計(jì)算機(jī)系在讀博士 王軍杰