語言模型和視覺助手-LLAVA
今天介紹一個新的語言模型和視覺助手-LLaVA ,LLaVA 是一個由威斯康星大學麥迪遜分校、微軟研究院和哥倫比亞大學的研究人員開發(fā)的大型語言和視覺助手。它是一個端到端訓練的大型多模態(tài)模型,結(jié)合了視覺編碼器和語言模型,用于通用的視覺和語言理解。這是它的github地址:GitHub – haotian-liu/LLaVA: [NeurIPS 2023 Oral] Visual Instruction Tuning: LLaVA (Large Language-and-Vision Assistant) built towards multimodal GPT-4 level capabilities.
LLaVA 可以用于多種任務,包括:
圖像描述:給定一張圖像,LLaVA 可以生成描述該圖像的文字。
圖像查詢:用戶可以使用自然語言來查詢圖像,LLaVA 可以返回與查詢相關的圖像。
圖像生成:用戶可以提供描述,LLaVA 可以生成符合描述的圖像。
視覺問答:用戶可以提出關于圖像的問題,LLaVA 可以回答這些問題。
LLaVA 還處于開發(fā)階段,但它已經(jīng)取得了一些令人印象深刻的成果。例如,在圖像描述任務上,LLaVA 的表現(xiàn)與人類相似。在圖像查詢?nèi)蝿丈?,LLaVA 可以準確地返回與查詢相關的圖像。在圖像生成任務上,LLaVA 可以生成逼真的圖像。在視覺問答任務上,LLaVA 可以回答有關圖像的開放式問題。
LLaVA 具有廣泛的應用潛力,它可以用于各種需要視覺和語言理解的任務,例如:
圖像搜索
圖像識別
圖像生成
視覺問答
虛擬助手
同樣的這兒有一個演示demo:LLaVA (hliu.cc)

下面我在上面做一下演示,上傳一張有趣的圖片然后問它一個問題:這張圖片有什么不尋常的地方?

模型的回答:這張照片的不尋常之處在于,一名男子站在行駛中的汽車后座上熨燙衣服。這不是一個典型的場景,因為熨燙衣服通常是在室內(nèi),在更受控的環(huán)境中完成的,而不是在汽車行駛時。這個人在汽車后部平衡和執(zhí)行這項任務的能力令人印象深刻且非常規(guī)。
再上傳一個有趣的例子:

AI助手的回答:在平靜的湖面上參觀碼頭時,有幾件事需要小心。首先,確保您穿著合適的鞋子,具有良好的牽引力,因為碼頭可能潮濕或濕滑,會增加滑倒和跌倒的風險。其次,請注意天氣狀況,因為圖像顯示多云的天空,這可能表明下雨或天氣突然變化的可能性。為任何意外的天氣變化做好準備并準備合適的衣服和裝備至關重要。最后,注意周圍的環(huán)境,并與碼頭邊緣保持安全距離,以免意外掉入水中。如果您計劃游泳或從事水上活動,請確保您具備必要的技能和安全設備。
從這可以看到AI完全能夠理解圖片的內(nèi)容,并準確地將其描述出來。并能夠非常詳細地提出可能出現(xiàn)的情況及應對對策。
我這里自己再上傳一個自己用AI生成的圖片,然后同它對話:

以下是 LLaVA 的更多功能:
圖像描述 可以生成豐富的、有創(chuàng)意的圖像描述。
可以理解圖像中的細節(jié)和上下文。
圖像查詢 可以理解用戶的查詢意圖。
可以返回與查詢相關的圖像。
圖像生成 可以生成逼真的、符合描述的圖像。
視覺問答 可以回答有關圖像的開放式問題。
LLaVA 目前還處于開發(fā)階段,但它已經(jīng)取得了一些令人印象深刻的成果。隨著 LLaVA 的不斷發(fā)展,它將會在更多領域發(fā)揮作用。