Qwen-VL-Chat：阿里云發(fā)布開(kāi)源大規(guī)模視覺(jué)語(yǔ)言模型

2023-08-26 01:27 作者:AI日日新 0人讀過(guò) | 我要投稿

可在線(xiàn)運(yùn)行的notebook鏈接：在kaggle網(wǎng)站搜索

Qwen-VL-Chat

首先安裝依賴(lài)包：

接著加載模型：（注意我這里開(kāi)啟了bf16，起到了量化模型的作用，因此推理效果會(huì)比源模型差，若電腦性能較好可以關(guān)閉bf16）

然后我們即可將圖像和指令詞傳遞給模型推理：

不僅如此，該模型還可以檢測(cè)到圖像中的物體位置，并返回相應(yīng)的圖像供我們參考：

當(dāng)然，該模型是多模態(tài)模型，將文本和圖像關(guān)聯(lián)起來(lái)。若設(shè)置多種組合可能會(huì)起到意想不到的效果，大家可以進(jìn)行嘗試

標(biāo)簽：