還沒體驗(yàn)ChatGPT,來試試這個(gè)MiniGPT-4吧

不知不覺,距 GPT-4 首次公開問世,已經(jīng)過去一個(gè)月了。在這段時(shí)間,有不少人拿到了 GPT-4 API 權(quán)限,開通了 ChatGPT Plus,提前體驗(yàn)了 GPT-4 的能力。這些人無一例外,都被 GPT-4 強(qiáng)大的邏輯分析、統(tǒng)籌規(guī)劃能力深深折服。無論是論文創(chuàng)作、編寫代碼、還是數(shù)據(jù)分析,GPT-4 都給出了令人驚艷的表現(xiàn)。不過,大家可別忘了,GPT-4 作為一個(gè)多模態(tài)大語言模型,它不僅能生成文字內(nèi)容,還能理解圖像輸入內(nèi)容,讓用戶直接與圖片進(jìn)行對(duì)話。一個(gè)月前,OpenAI 向外界演示了 GPT-4 如何通過手繪草圖,直接生成網(wǎng)站,讓當(dāng)時(shí)不少圍觀群眾看的目瞪口呆。



在研究中,他們發(fā)現(xiàn) MiniGPT-4 具有許多類似于 GPT-4 的能力,如詳細(xì)的圖像描述生成、從手寫草稿創(chuàng)建網(wǎng)站等。不僅如此,他們還在研究中還收獲了意想不到的驚喜,除了能實(shí)現(xiàn)上述功能之外,MiniGPT-4 還能根據(jù)圖像創(chuàng)作故事和詩歌,為圖像中顯示的問題提供解決方案,教用戶如何根據(jù)食物照片做飯等。下面給大家看幾個(gè)示例。拍一張菜品圖片,讓 AI 自動(dòng)幫你生成菜譜:

讓 AI 描述圖像內(nèi)容:

通過商品圖,直接生成廣告文案:

根據(jù)實(shí)驗(yàn)結(jié)果表明,GPT-4 這些先進(jìn)的能力,理論上可以歸因于它使用了更先進(jìn)的大語言模型。也就是說,未來在圖像、聲音、視頻等領(lǐng)域,基于這些大語言模型所造出來的應(yīng)用,其實(shí)際效果都不會(huì)太差。
這個(gè)項(xiàng)目證實(shí)了大語言模型在圖像領(lǐng)域的可行性,接下來應(yīng)該會(huì)有不少開發(fā)者入場,將 GPT-4 的能力進(jìn)一步往音頻、視頻等領(lǐng)域延伸,進(jìn)而讓我們得以看到更多有趣、令人驚艷的 AI 應(yīng)用。