每日一科技
微軟推出大型語言模型分割推理助手LISA
amy 的報(bào)道??8 小時(shí)
站長之家(ChinaZ.com)8月10日 消息:想象一下你想喝咖啡,然后你命令機(jī)器人去泡咖啡。您的指令涉及“煮一杯咖啡”,但不包括“去廚房,找到咖啡機(jī),然后打開它”等分步指令。目前的現(xiàn)有系統(tǒng)包含依賴人類指令來識(shí)別任何目標(biāo)對象的模型。他們?nèi)狈ν评砟芰椭鲃?dòng)理解用戶意圖的能力。
為了解決這個(gè)問題,微軟研究院、香港大學(xué)和 SmartMore 的研究人員提出了大型語言模型驅(qū)動(dòng)的分割推理助手——LISA(Large Language Instructed Segmentation Assistant)。
項(xiàng)目地址:https://github.com/dvlab-research/lisa
LISA是一種新穎的分割任務(wù),旨在通過復(fù)雜而隱含的查詢文本生成分割掩碼。LISA 繼承了多模態(tài)大型語言模型(LLM)的語言生成能力,同時(shí)具備生成分割掩碼的能力。研究人員發(fā)現(xiàn),LISA 在處理復(fù)雜推理、世界知識(shí)、解釋性回答和多對話方面表現(xiàn)出色。
通過對模型進(jìn)行微調(diào),僅使用239個(gè)推理分割圖像指令對,性能得到了提升。研究人員還發(fā)現(xiàn),LISA 在復(fù)雜推理任務(wù)上的性能優(yōu)于傳統(tǒng)的推理分割方法。他們的未來工作將側(cè)重于推理能力的重要性,以建立一個(gè)評估基準(zhǔn)并促進(jìn)社區(qū)開發(fā)新技術(shù)。
核心功能:
- 根據(jù)復(fù)雜查詢文本生成分割掩碼
- 進(jìn)行復(fù)雜推理和世界知識(shí)的分割
- 提供解釋性回答
- 支持多輪對話交互