最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

AI新技術(shù)--零標(biāo)簽玩轉(zhuǎn)對比學(xué)習(xí)

2023-03-20 15:52 作者:跟著唐宇迪學(xué)AI  | 我要投稿

? ? ? 在開展深度學(xué)習(xí)項目時,數(shù)據(jù)集的標(biāo)注是一個非常龐大的工程,所謂的人工智能,先人工再智能,這里的人工指的就是手動打標(biāo)簽的過程,為了能夠避開這份不夠智能的工作,對比學(xué)習(xí)的訓(xùn)練模式為我們提供了新思路,這種策略不再依賴標(biāo)簽的引導(dǎo),不受制于特定任務(wù),讓模型學(xué)會提取更加泛化的特征,可以有效遷移至各類下游任務(wù)。

資料已經(jīng)整理好了,文末附下載方式!以下是詳細(xì)內(nèi)容介紹~?

學(xué)習(xí)資料

? ? ?? 對比學(xué)習(xí)屬于自監(jiān)督學(xué)習(xí)的范疇,以CV領(lǐng)域中的SimCLR算法為例,它的本質(zhì)是判斷異同,整體思想是將樣本與其語義相近的正樣本和語義差距大的負(fù)樣本做對比,通過設(shè)計代理任務(wù)和目標(biāo)函數(shù),讓模型主動構(gòu)造正負(fù)樣本并最小化目標(biāo)損失,進(jìn)而使語義相近的樣本在表示空間中距離近,語義差距大的樣本空間表示距離更遠(yuǎn),即實現(xiàn)聚類中最小化類內(nèi)距,最大化類間距。舉例來說,對比學(xué)習(xí)目標(biāo)就是希望模型知道下圖中兩個貓相似,而貓與狗、大象是不同的。

? ? ? SimCLR不需要人工打標(biāo)簽,正負(fù)樣本通過數(shù)據(jù)增強的方式獲得,例如圖片的隨機裁剪、隨機顏色失真、隨機高斯模糊等。數(shù)據(jù)增強的方式越豐富,網(wǎng)絡(luò)訓(xùn)練面臨的難度越大,在一定程度上能夠更好地挖掘模型的潛力。

? ? ? ?如果一個批次有N張圖片,經(jīng)過數(shù)據(jù)增強后得到2N張,共有N對正樣本,2(N-1)對負(fù)樣本,這里的N通常是比較大的,原論文中是8192的批量。將增強后的圖像分別送進(jìn)編碼器中提取特征,再經(jīng)過全連接后,得到最終的特征向量并計算損失,反向傳播繼續(xù)訓(xùn)練,遷移至其他下游任務(wù)中時,預(yù)訓(xùn)練模型只使用前半段,全連接層的部分不參與,需要根據(jù)具體的任務(wù)需求重新設(shè)計后部分的輸出頭。

? ? ? ? 算法的目的是做異同判別,需要計算特征之間的余弦相似度,損失函數(shù)是infoNCE loss,從下圖公式可以看出,正樣本對的距離放在分子中,分母中則包含了負(fù)樣本對距離,當(dāng)正樣本對距離越小,負(fù)樣本對距離越大,損失越小,完全符合我們?nèi)蝿?wù)本身的需求,這里的溫度系數(shù)τ,控制了模型對負(fù)樣本的區(qū)分度。

? ? ? ?除了數(shù)據(jù)增強,還可以通過多視角任務(wù),給模型繼續(xù)增加難度,相同樣本的不同視角任務(wù)得到的特征,應(yīng)該是具有較高的相似度,而不同樣本的則與之相反,多視角的加入可以進(jìn)一步輔助提升模型的學(xué)習(xí)力。

? ? ? BYOL也是對比學(xué)習(xí)算法的一個代表,它的思想更加尖銳,直接排除了負(fù)樣本的概念,將輸入樣本做數(shù)據(jù)增強,并經(jīng)過編碼器和全連接層提取特征后,直接計算雙路輸出的L2損失,基本思想是對于同一個樣本,即便經(jīng)過數(shù)據(jù)增強,二者的本質(zhì)特征仍應(yīng)該是相似的。

? ? ??NLP領(lǐng)域中,也存在對比學(xué)習(xí)的身影,SimCSE算法采用隨機的Droupout Mask策略,對同一條文本,經(jīng)過模型兩次隨機Droupout Mask的處理,得到不同的詞向量,但由于輸入的文本是相同的,即便經(jīng)過隨機殺死神經(jīng)元,我們期望兩次得到的詞向量的語義是相同的,因此這種處理可以將其作為正樣本例,此外,同一個batch中其他不同源文本產(chǎn)生的dropout增廣詞向量可作為負(fù)樣本例。下圖align表示同類之間的距離,Uniform表示所有句子整體分布,可以看出SimCSE的效果比較突出。?

? ? ? 對比學(xué)習(xí)讓現(xiàn)實生活中普遍存在的無標(biāo)簽數(shù)據(jù)發(fā)光發(fā)熱,有效規(guī)避了費時耗力的打標(biāo)簽任務(wù),同時數(shù)據(jù)本身提供的信息遠(yuǎn)比稀疏的標(biāo)簽更加豐富,使用對比學(xué)習(xí)訓(xùn)練得到的模型更加強壯。相比于有監(jiān)督學(xué)習(xí)依賴標(biāo)簽只能針對某一特定任務(wù)來定制模型,對比學(xué)習(xí)可以學(xué)到更加泛化的通用特征,對于不同下游任務(wù)具有更好的遷移性能。當(dāng)你苦于構(gòu)造數(shù)據(jù)集的標(biāo)簽,不妨試試對比學(xué)習(xí)的策略,進(jìn)而實現(xiàn)解放人工的真正智能。

對比學(xué)習(xí)教程和資料

免費領(lǐng)取方式
關(guān)注UP主“ 跟著唐宇迪學(xué)AI
直接發(fā)送 “對比學(xué)習(xí)”?

還有一種免費領(lǐng)取方式

看評論區(qū)??



AI新技術(shù)--零標(biāo)簽玩轉(zhuǎn)對比學(xué)習(xí)的評論 (共 條)

使用qq登录你需要登录后才可以评论。
东平县| 库车县| 丰都县| 韩城市| 巨鹿县| 巴林左旗| 晋江市| 湖南省| 抚松县| 韩城市| 茶陵县| 安阳市| 关岭| 云浮市| 新疆| 济阳县| 四子王旗| 江源县| 海盐县| 祁东县| 嘉峪关市| 肥乡县| 清水河县| 伊宁市| 景德镇市| 府谷县| 遂川县| 龙口市| 慈溪市| 泗阳县| 峨眉山市| 滦南县| 绥宁县| 陈巴尔虎旗| 灵丘县| 三门县| 成安县| 同心县| 凉山| 南雄市| 韶山市|