Qwen-VL-Chat:阿里云發(fā)布開(kāi)源大規(guī)模視覺(jué)語(yǔ)言模型
可在線(xiàn)運(yùn)行的notebook鏈接:在kaggle網(wǎng)站搜索
Qwen-VL-Chat
首先安裝依賴(lài)包:
接著加載模型:(注意我這里開(kāi)啟了bf16,起到了量化模型的作用,因此推理效果會(huì)比源模型差,若電腦性能較好可以關(guān)閉bf16)
然后我們即可將圖像和指令詞傳遞給模型推理:
不僅如此,該模型還可以檢測(cè)到圖像中的物體位置,并返回相應(yīng)的圖像供我們參考:
當(dāng)然,該模型是多模態(tài)模型,將文本和圖像關(guān)聯(lián)起來(lái)。若設(shè)置多種組合可能會(huì)起到意想不到的效果,大家可以進(jìn)行嘗試
標(biāo)簽: