論文解讀Kaleido-BERT——時尚領(lǐng)域視覺-語言預(yù)訓(xùn)練模型
來源:投稿 作者:小灰灰 編輯:學(xué)姐
論文解讀
Kaleido-BERT: Vision-Language Pre-training on Fashion Domain
這是一篇在時尚領(lǐng)域、往細粒度方向做視覺、語言預(yù)訓(xùn)練的工作。

01 網(wǎng)絡(luò)結(jié)構(gòu)

它包含 5 個步驟:
(1) 在輸入階段,Kaleido-BERT 有兩種模態(tài) 的特征輸入:文本輸入 (e.g., 商品圖像描述) 以及由Kaleido圖像塊生成器 (KPG) 所產(chǎn)生的對應(yīng)的圖像 輸入。每個文本描述被表征為一系列的詞例 (token),而每一張與文本對應(yīng)的圖 像被表示為一系列Kaleido 圖像塊。
(2) 在圖文特征向量生成的階段,本研究使用了注意力對齊生成器(AAG)去產(chǎn)生詞例與Kaleido圖像塊的預(yù)對齊信息,以便圖像和文本隱式地進行語義對齊。
(3) 在交互階段,與現(xiàn)有的隨機掩碼策略不同,本文提出采用預(yù) 對齊掩碼策略 (AGM) 以緩解跨模態(tài)語義交互難度。
(4)詞例和Kaleido圖像塊的特征向量在Kaleido- BERT 得到充分交互后,模型漸進式的學(xué)習視覺-語 言的語義信息并產(chǎn)生多模態(tài)細粒度表征。
(5) 除了掩碼語言模型 (Masked Language Modeling,MLM) 和圖文匹配任務(wù) (Image-Text Matching, ITM) 外, 本工作還使用了 5 種新型的預(yù)對齊 Kaleido 模型 (Aligned Kaleido Patch Modeling, AKPM),即: 旋轉(zhuǎn), 拼圖, 偽裝, 著色和修復(fù)任務(wù)。
1.1 Kaleido 圖像塊生成器
以一張商品圖片作為輸入,并將其送入 Kaleido 圖像塊生成器 (KPG)。如圖.下圖所示,KPG使用 了顯著性檢測網(wǎng)絡(luò)去提取前景分割圖,并以前景圖為依據(jù)框定主體目標。受空間包絡(luò) (spatial envelop)以及分塊策略的啟發(fā),本文探索將單張圖像切分不同的尺度 (即,1×1, 2×2, . . . , 5×5)。

這些圖像塊就是“Kaleido(百變)”圖像塊。除此之外,也可以根據(jù)特定任務(wù)的難 度去考慮更為細致的劃分 (如 6×6,或像是 Pixel- BERT的 N×N 劃分)。
最終,每一張圖像被劃分為55塊Kaleido圖像塊。為了生成這些圖像塊的特征向量,本文采用ResNet-50作為骨干網(wǎng)絡(luò)進行模型的特征提取。
1.2 注意力對齊生成器
注意力對齊生成器 (AAG) 目的是產(chǎn)生文本詞例(token)與 Kaleido圖像塊之間的模糊對齊。如下圖中, 直接使用了著名的SAT網(wǎng)絡(luò),將其 在 FashionGen 數(shù)據(jù)集上重新訓(xùn)練。
之后,它作為 文本生成器,自動描述圖像的內(nèi)容。在圖像描述階段,SAT網(wǎng)絡(luò)會對每一個詞例生成注意力熱圖,以 這些熱圖為依據(jù)可以推斷生成的詞與圖像區(qū)域的關(guān) 系。
若生成的描述和原本描述有共現(xiàn)的單詞,將依照 共現(xiàn)單詞的注意力熱圖來判斷該單詞傾向于與哪一Kaleido圖像塊關(guān)聯(lián)。從而得到一部分原始描述中的 單詞與 Kaleido 圖像塊的對齊信息。

1.3 預(yù)對齊掩碼策略
通過注意力對齊生成器,模型獲得了關(guān)聯(lián)好的 ?token, patch? 對。雖然這些對齊信息并不十分精確,但它提供了不同模態(tài)間潛在的語義關(guān)聯(lián)。至此, 可依照這些信息修改原始的隨機掩碼策略。
將這些信息利用到預(yù)訓(xùn)練階段,它能更好地幫助 Kaleido- BERT 隱式地探索跨模態(tài)語義關(guān)系。與隨機掩碼策略不同,預(yù)對齊掩碼策略 (AGM) 會 給予更高優(yōu)先級去掩碼有預(yù)對齊信息的詞例或圖像塊。當選中了某一預(yù)對齊 ?token, patch? 進行掩碼時,會隨機掩碼圖像或文本中的其中一側(cè),這有利于Kaleido-BERT通過現(xiàn)有信息 (單模態(tài)保留的特征) 去推測另一模態(tài)丟失的特征。
當所有預(yù)對齊圖 像文本對都被遍歷后,仍然出現(xiàn)沒有足夠的預(yù)對齊圖像-文本對進行預(yù)對齊掩碼策略時,則重新采用隨 機掩碼策略補足所需要的掩碼個數(shù)。通過這樣的方式,得到了詞例 (token) 與圖像塊 (patch) 的候選掩碼。
AGM 策略在 Kaleido 圖像塊中的 3×3、4×4、 5×5 層級生效。
本文研究工作沒有將掩碼策略應(yīng)用 于 1×1、2×2 這兩種尺度是因為掩碼大的圖像塊會 增加模型的預(yù)訓(xùn)練難度 (且意義不大)。根據(jù)經(jīng)驗,本 文分別在 3×3 圖像塊挑出1塊,4×4 圖像塊挑出2塊,5×5 圖像塊挑出 3 塊進行掩碼。
1.4 多模態(tài) Transformer
使用原始的 BERT構(gòu)建多模態(tài)Trans- former,這使得 Kaleido-BERT易于開發(fā)和遷移。沿用了 FashionBERT ?的做法,即將詞例序列 (i.e., 由 WordPieces產(chǎn)生) 的位置信息編碼為 0,1,2,3,...,N。
在BERT中, 每一個文本訓(xùn)練語料是由其本身的詞嵌入、語義特征、位置編碼特征相加而來,再接一個歸一化層 (LN Layer) 生成最后的特征向量。而對于圖像訓(xùn)練特征, 先將每一個圖像塊的位置信息編碼成五維的特征([x1, x2, y1, y2, w ? h])。然后將圖像塊特征與它的位置編碼特征分別送入到一個全連接層 (FC),將它們映射到同一個維度上。
最后,采用相加通過全連接層 后的特征 (i.e., FC (seg_id), FC (img_feature), FC (pos_emb))的方式,可以得到每一個圖像塊的視覺特征向量,最后將它們送入LN層。
1.5 預(yù)訓(xùn)練
為了緩解視覺與語言的語義隔閡,促進多模態(tài) 表征學(xué)習,本文設(shè)計了三種訓(xùn)練任務(wù)促進預(yù)訓(xùn)練過 程,分別是: 預(yù)對齊掩碼語言模型 (AMLM)、圖文 匹配任務(wù) (ITM) 以及提出的預(yù)對齊 Kaleido 圖像 塊模型 (AKPM)
2.1適用任務(wù)
1. 文本檢索 (ITR)
文本檢索作為一種下游任務(wù),需要模型判斷一個句子是否準確地描述一張圖片。
本文在 Fashion-Gen 采樣了一些商品圖 像和標題作為圖像文本對,并使用原始的產(chǎn)品信息 作為正樣本。與此同時,打亂數(shù)據(jù)集并使用不匹配的圖像文本對作為負樣本。
為增加難度,正負樣本均 采自同樣的子類目,因此它們會較難被PTM區(qū)分。此外,本文使用 Rank@1, Rank@5, Rank@10 評估 檢索性能。
2. 圖像檢索 (ITR)
圖像檢索任務(wù)以文本描 述為線索,對最相關(guān)的商品圖像進行排序。
與文本檢索類似,本文使用真正的商品圖像文本對作為正 樣本,并從同子類目中的商品中隨機選取100個不相關(guān)的描述作為負樣本。通過預(yù)測樣本的匹配分數(shù),本文依舊使用 Rank@1, @5, @10 作為評價指標。
3. 類目/子類目預(yù)測 (CR&SUB)
類目是描述商品至關(guān)重要的信息,這些信息在現(xiàn)實應(yīng)用 中非常有價值。
本文使用分類任務(wù)來進行此任務(wù), 目的是預(yù)測商品的類目和子類目,比如 {HOODIES, SWEATERS}, {TROUSERS, PANTS}。在實施過程中,直 接在 [CLS] 后接一層全連接層來進行該任務(wù)。
4. 時尚描述 (FC)
圖像描述生成是一項很重要的研究話題,在計算機視覺領(lǐng)域中也有廣泛的工作基于此展開。時尚描述的準確率可以衡量多模態(tài)模型的生成能力。
2.2消融實驗
有三個影響Kaleido-BERT性能表現(xiàn)的主要因素,它們分別在不同階段起作用。
輸入層: Kaleido 圖像跨生成器 (KPG);向量層: 預(yù)對齊掩碼策略 (AGM);
以及任務(wù)層:對齊 Kaleido 圖像塊模型。
因此本文實施了針對這些因素的消融實驗,去進一步分析這些組件/策略。實驗的結(jié)果展示在表.4和圖.7中。

論文鏈接:
https://arxiv.org/abs/2103.16110
論文代碼:
https://github.com/mczhuge/Kaleido-BERT