每日一科技

2023-08-10 19:26 作者:HZJTWD 0人讀過 | 我要投稿

微軟推出大型語言模型分割推理助手LISA

amy 的報(bào)道??8 小時(shí)

站長之家（ChinaZ.com）8月10日消息:想象一下你想喝咖啡，然后你命令機(jī)器人去泡咖啡。您的指令涉及“煮一杯咖啡”，但不包括“去廚房，找到咖啡機(jī)，然后打開它”等分步指令。目前的現(xiàn)有系統(tǒng)包含依賴人類指令來識(shí)別任何目標(biāo)對象的模型。他們?nèi)狈ν评砟芰椭鲃?dòng)理解用戶意圖的能力。

為了解決這個(gè)問題，微軟研究院、香港大學(xué)和 SmartMore 的研究人員提出了大型語言模型驅(qū)動(dòng)的分割推理助手——LISA（Large Language Instructed Segmentation Assistant）。

項(xiàng)目地址：https://github.com/dvlab-research/lisa

LISA是一種新穎的分割任務(wù)，旨在通過復(fù)雜而隱含的查詢文本生成分割掩碼。LISA 繼承了多模態(tài)大型語言模型（LLM）的語言生成能力，同時(shí)具備生成分割掩碼的能力。研究人員發(fā)現(xiàn)，LISA 在處理復(fù)雜推理、世界知識(shí)、解釋性回答和多對話方面表現(xiàn)出色。

通過對模型進(jìn)行微調(diào)，僅使用239個(gè)推理分割圖像指令對，性能得到了提升。研究人員還發(fā)現(xiàn)，LISA 在復(fù)雜推理任務(wù)上的性能優(yōu)于傳統(tǒng)的推理分割方法。他們的未來工作將側(cè)重于推理能力的重要性，以建立一個(gè)評估基準(zhǔn)并促進(jìn)社區(qū)開發(fā)新技術(shù)。

核心功能:

- 根據(jù)復(fù)雜查詢文本生成分割掩碼

- 進(jìn)行復(fù)雜推理和世界知識(shí)的分割

- 提供解釋性回答

- 支持多輪對話交互

標(biāo)簽：