393350【嘩哩嘩哩】世紀(jì)主管的決策_(dá)工作_計(jì)劃_技術(shù)指導(dǎo)_嗶哩嗶哩
GPT-4V來做目標(biāo)檢測?網(wǎng)友實(shí)測:還沒有準(zhǔn)備好。

雖然檢測到的類別沒問題,但大多數(shù)邊界框都錯(cuò)放了。
沒關(guān)系,有人會(huì)出手!
那個(gè)搶跑GPT-4看圖能力幾個(gè)月的迷你GPT-4升級(jí)啦——MiniGPT-v2。
△(左邊為GPT-4V生成,右邊為MiniGPT-v2生成)
而且只是一句簡單指令:[grounding] describe this image in detail就實(shí)現(xiàn)的結(jié)果。
不僅如此,還輕松處理各類視覺任務(wù)。
圈出一個(gè)物體,提示詞前面加個(gè) [identify] 可讓模型直接識(shí)別出來物體的名字。

當(dāng)然也可以什么都不加,直接問~

MiniGPT-v2由來自MiniGPT-4的原班人馬(KAUST沙特阿卜杜拉國王科技大學(xué))以及Meta的五位研究員共同開發(fā)。

上次MiniGPT-4剛出來就引發(fā)巨大關(guān)注,一時(shí)間服務(wù)器被擠爆,如今GItHub項(xiàng)目已超22000+星。

此番升級(jí),已經(jīng)有網(wǎng)友開始用上了~

多視覺任務(wù)的通用界面
大模型作為各文本應(yīng)用的通用界面,大家已經(jīng)司空見慣了。受此靈感,研究團(tuán)隊(duì)想要建立一個(gè)可用于多種視覺任務(wù)的統(tǒng)一界面,比如圖像描述、視覺問題解答等。

「如何在單一模型的條件下,使用簡單多模態(tài)指令來高效完成各類任務(wù)?」成為團(tuán)隊(duì)需要解決的難題。
簡單來說,MiniGPT-v2由三個(gè)部分組成:視覺主干、線性層和大型語言模型。