利用CLIP提取圖像特征
2021年提出的CLIP中具有圖像編碼和文本編碼兩個模塊,一些實驗表明通過CLIP的圖像編碼器可以提取到高質(zhì)量的圖像特征,能夠顯著提高下游任務(wù)的性能。下面簡單介紹通過CLIP的圖像編碼模塊提取圖像特征的方法。
復(fù)現(xiàn)一個項目的代碼是一個麻煩的過程,幸運(yùn)的是已經(jīng)有人提供了用戶友好的CLIP提取圖像特征的方法,項目如下:
當(dāng)需要使用CLIP提取特征時,只需要下載該項目并在命令行簡單的輸入一些參數(shù)即可。項目文檔中提供的命令行指令如下:
經(jīng)過實驗,發(fā)現(xiàn)文檔中的指令不夠準(zhǔn)確,下面是個人實際使用的命令行參數(shù)。
最后來講一下CLIP編碼圖像特征的原理?;贑LIP訓(xùn)練過程的特點,它的圖像編碼模塊可以將一張圖片轉(zhuǎn)化成一個512維向量的形式。但是在下游任務(wù)中,往往需要從一張圖片中提取若干個,而非一個向量作為圖像特征?;谶@樣的需求,容易想到的是將一整張圖片均勻的切分為若干個patch再送入CLIP,就可以得到若干個512維向量,滿足下游任務(wù)的需要。在這種思想的基礎(chǔ)上,該項目對待提取特征的圖像進(jìn)行剪裁,并修改了部分CLIP代碼,最終可以從一張圖片中提取出50個向量作為特征,其中一個512維向量從整張圖片中提取,49個2048維向量從圖片patch中提?。ㄒ訰N101為例)。
標(biāo)簽: