最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

深度學(xué)習(xí)知識蒸餾,小模型也有大可能

2023-06-29 18:09 作者:跟著唐宇迪學(xué)AI  | 我要投稿

? ? ? 現(xiàn)如今,各種大模型橫行在AI的各個(gè)領(lǐng)域,有錢有資源的大公司都在暴力堆數(shù)據(jù),瘋狂卷資源,大模型的效果的確是讓人驚艷的,但實(shí)際落地的部署設(shè)備無法匹配這么高的算力需求,普通人也沒有鈔能力能夠在大模型上再做文章?;诖爽F(xiàn)狀,識蒸餾的策略就應(yīng)運(yùn)而生了,它的目標(biāo)是讓小體量的模型能夠達(dá)到與大模型相媲美的效果。

? ? ??大家都知道,參數(shù)量并不是越大越好,達(dá)到一定的瓶頸后,即便擴(kuò)大參數(shù)量,模型性能的提升也是微乎其微,但對于相同參數(shù)量的模型,執(zhí)行不同的訓(xùn)練策略,往往能夠得到不同的效果。知識蒸餾也是關(guān)注訓(xùn)練策略上的調(diào)整,試圖通過設(shè)計(jì)策略讓模型既小又好,采用Teacher和Student一大一小兩種模型,二者共用相同的數(shù)據(jù),Teacher模型是已經(jīng)訓(xùn)練完成的,需要被凍住不再進(jìn)行二次訓(xùn)練,Student模型不僅要學(xué)習(xí)原始的數(shù)據(jù),還要學(xué)習(xí)Teacher模型的相關(guān)指導(dǎo)。

? ? ?Teacher模型負(fù)責(zé)提供輔助信息指導(dǎo)Student模型,信息的形式是多樣的,例如最終結(jié)果的分布、中間解題的過程、數(shù)據(jù)分布的關(guān)系等。下圖中將Teacher模型的預(yù)測結(jié)果作為軟標(biāo)簽,數(shù)據(jù)集的真實(shí)標(biāo)簽作為硬標(biāo)簽,Stuedent模型需要權(quán)衡軟損失和硬損失,不僅要學(xué)會任務(wù),還要學(xué)會Teacher模型的結(jié)果分布,兩種損失是相輔相成的。圖中的T代表溫度系數(shù),除以T可以重新設(shè)計(jì)預(yù)測結(jié)果的概率,讓軟標(biāo)簽變得更軟。溫度越高,相當(dāng)于多樣性更豐富,標(biāo)簽的概率是雨露均沾的,而溫度越低,越接近硬標(biāo)簽,只希望模型預(yù)測到最準(zhǔn)的效果。

? ? ?除了上述的Teacher模型提供結(jié)果分布的信息外,還可通過模型中間層的特征圖傳遞指導(dǎo)信息;也能使用樣本之間的關(guān)系,比如每個(gè)batch中樣本存在的差異等,但此種形式使用率不高,主要原因是數(shù)據(jù)的可控性不足,可能存在的離群點(diǎn)會讓模型學(xué)錯(cuò)方向。


? ? ??知識蒸餾可以應(yīng)用在不同的任務(wù)方向上,以目標(biāo)檢測場景為例,下圖一融合利用了Teacher端的特征圖信息和結(jié)果分布信息,設(shè)計(jì)四個(gè)監(jiān)督損失指導(dǎo)Student模型的訓(xùn)練過程;下圖二在其基礎(chǔ)上進(jìn)一步改進(jìn),采用mask的機(jī)制只關(guān)注前景區(qū)域的損失;下圖三又對前景和背景分別計(jì)算損失。

? ? 以上三種是相對較早的研究,我們可以深刻的感受到學(xué)術(shù)是一個(gè)思路不斷發(fā)散,持續(xù)精進(jìn)的嘗試過程。后續(xù)的知識蒸餾研究中,學(xué)者們將目光放到了Teacher端和Student端的差異上,同樣設(shè)計(jì)了Mask機(jī)制,重點(diǎn)突出差異的區(qū)域;隨著Transformer思想的興起,下圖二引入了Attention機(jī)制,分別在空間和通道維度上做注意力,并設(shè)計(jì)了三重?fù)p失監(jiān)督訓(xùn)練。


? ? ? ?此外,Teacher模型的數(shù)量可以是多個(gè)的,通過不斷的信息反饋,讓Student模型在不同階段自主地選擇Teacher模型,類似于強(qiáng)化學(xué)習(xí)的策略。下圖二中的環(huán)境可以包含相對靈活的信息,例如特征圖、Teacher端的軟標(biāo)簽、Teacher端的自身損失等;Agent來學(xué)習(xí)如何選擇策略(老師),它會給出一組Action,0/1代表選擇/不選擇;選擇好老師后,Student端會進(jìn)行相應(yīng)的聚合操作,并評估學(xué)習(xí)后的效果,得到一個(gè)獎(jiǎng)勵(lì)值返回給Agent,繼續(xù)下一輪選擇的調(diào)整。


? ? ? ?解耦是知識蒸餾的另一種改進(jìn)思想,傳統(tǒng)的輔助信息大都使用預(yù)測結(jié)果的分布,下圖中TCKD是置信度,NCKD是錯(cuò)誤分布,從表格中可以看出TCKD的存在會導(dǎo)致效果變差,但對于一些難度較大的數(shù)據(jù)集,使用TCKD會有一定程度的提升作用。

? ? ? ?分析上述情況可以得出:如果置信度預(yù)測的準(zhǔn),則無法利用到錯(cuò)誤分布,軟標(biāo)簽失去了本身的意義;如果置信度預(yù)測的不準(zhǔn),即便利用了錯(cuò)誤分布,也很難挽回自身不準(zhǔn)的局面。由此衍生出解耦的思想,置信度和錯(cuò)誤分布不再綁定,而是通過兩路分支,分別計(jì)算各自的損失,再通過一組可學(xué)習(xí)的損失權(quán)重來解耦二者的關(guān)系。

? ? ? ?從上述中可以看到,知識蒸餾方向已經(jīng)有很多理論成果,但目前的實(shí)際應(yīng)用中,仍不盡如人意,絕大部分的蒸餾模型只能活躍在文本數(shù)據(jù)上,CV方向受限制于分類、檢測的基礎(chǔ)任務(wù),效果也往往略顯遜色。但這個(gè)方向非常具有實(shí)際意義,小模型迸發(fā)出的大可能,落地到端側(cè)后可以實(shí)現(xiàn)既小體量、又好效果,期待知識蒸餾能有更大的突破,讓人工智能跳出資

后面會努力更新AI相關(guān)技術(shù)點(diǎn)文章
?記得3連支持一下,感謝!感謝!


深度學(xué)習(xí)知識蒸餾,小模型也有大可能的評論 (共 條)

分享到微博請遵守國家法律
延寿县| 漳浦县| 桃江县| 惠安县| 禹州市| 汉阴县| 安泽县| 庆安县| 五寨县| 绥棱县| 日土县| 兴文县| 噶尔县| 杭锦后旗| 双江| 林芝县| 绥芬河市| 清河县| 澜沧| 格尔木市| 承德市| 额敏县| 津市市| 德惠市| 乃东县| 蓬莱市| 彰化市| 遂川县| 托克逊县| 鱼台县| 阿合奇县| 乐安县| 墨脱县| 梅河口市| 河池市| 天津市| 临安市| 珠海市| 边坝县| 裕民县| 长寿区|