其中特別值得注意的一點是,clip 預(yù)訓(xùn)練的方式采用的在batch 內(nèi)負采樣的方式進行的對比學(xué)習(xí),如下圖所示:一個batch內(nèi),一個文本編碼,只有與它對應(yīng)的圖像是正樣本,其他的圖像都是負樣本。目標就是優(yōu)化這個矩陣,希望對角線的值越大越好,矩陣其他地方的值越小越好。