使用圖像描述模型為任意圖片生成描述語句
一個(gè)名叫xmodaler的項(xiàng)目集成了若干個(gè)圖像描述方法,在該項(xiàng)目中可以調(diào)用現(xiàn)有的圖像描述模型進(jìn)行描述,但本人沒有詳細(xì)研究過,所以在這里只提供一個(gè)可能的方向:
研究了一段時(shí)間名為DLCT的項(xiàng)目的代碼,下面介紹下使用該項(xiàng)目進(jìn)行圖像描述的方法,項(xiàng)目地址:
在使用該項(xiàng)目前,需要區(qū)域特征、網(wǎng)格特征、對(duì)齊圖等共計(jì)五條數(shù)據(jù),其中對(duì)齊圖在項(xiàng)目的aligns目錄下,簡(jiǎn)單閱讀就可以看懂,其他信息在之前的兩篇專欄中已經(jīng)給出了提取方法(雖然項(xiàng)目中預(yù)期使用的是目標(biāo)檢測(cè)器網(wǎng)格特征,但使用CLIP網(wǎng)格特征也無傷大雅)。
當(dāng)取得了必須的數(shù)據(jù)后,執(zhí)行下面的代碼即可:
命令行參數(shù)如下: