散文網(wǎng) » 科技 »學(xué)習(xí) » 深度學(xué)習(xí)知識蒸餾，小模型也有大可能

深度學(xué)習(xí)知識蒸餾，小模型也有大可能

2023-06-29 18:09 作者:跟著唐宇迪學(xué)AI 0人讀過 | 我要投稿

? ? ? 現(xiàn)如今，各種大模型橫行在AI的各個(gè)領(lǐng)域，有錢有資源的大公司都在暴力堆數(shù)據(jù)，瘋狂卷資源，大模型的效果的確是讓人驚艷的，但實(shí)際落地的部署設(shè)備無法匹配這么高的算力需求，普通人也沒有鈔能力能夠在大模型上再做文章?；诖爽F(xiàn)狀，知識蒸餾的策略就應(yīng)運(yùn)而生了，它的目標(biāo)是讓小體量的模型能夠達(dá)到與大模型相媲美的效果。

? ? ??大家都知道，參數(shù)量并不是越大越好，達(dá)到一定的瓶頸后，即便擴(kuò)大參數(shù)量，模型性能的提升也是微乎其微，但對于相同參數(shù)量的模型，執(zhí)行不同的訓(xùn)練策略，往往能夠得到不同的效果。知識蒸餾也是關(guān)注訓(xùn)練策略上的調(diào)整，試圖通過設(shè)計(jì)策略讓模型既小又好，采用Teacher和Student一大一小兩種模型，二者共用相同的數(shù)據(jù)，Teacher模型是已經(jīng)訓(xùn)練完成的，需要被凍住不再進(jìn)行二次訓(xùn)練，Student模型不僅要學(xué)習(xí)原始的數(shù)據(jù)，還要學(xué)習(xí)Teacher模型的相關(guān)指導(dǎo)。

? ? ?Teacher模型負(fù)責(zé)提供輔助信息指導(dǎo)Student模型，信息的形式是多樣的，例如最終結(jié)果的分布、中間解題的過程、數(shù)據(jù)分布的關(guān)系等。下圖中將Teacher模型的預(yù)測結(jié)果作為軟標(biāo)簽，數(shù)據(jù)集的真實(shí)標(biāo)簽作為硬標(biāo)簽，Stuedent模型需要權(quán)衡軟損失和硬損失，不僅要學(xué)會任務(wù)，還要學(xué)會Teacher模型的結(jié)果分布，兩種損失是相輔相成的。圖中的T代表溫度系數(shù)，除以T可以重新設(shè)計(jì)預(yù)測結(jié)果的概率，讓軟標(biāo)簽變得更軟。溫度越高，相當(dāng)于多樣性更豐富，標(biāo)簽的概率是雨露均沾的，而溫度越低，越接近硬標(biāo)簽，只希望模型預(yù)測到最準(zhǔn)的效果。

? ? ?除了上述的Teacher模型提供結(jié)果分布的信息外，還可通過模型中間層的特征圖傳遞指導(dǎo)信息；也能使用樣本之間的關(guān)系，比如每個(gè)batch中樣本存在的差異等，但此種形式使用率不高，主要原因是數(shù)據(jù)的可控性不足，可能存在的離群點(diǎn)會讓模型學(xué)錯(cuò)方向。

? ? ??知識蒸餾可以應(yīng)用在不同的任務(wù)方向上，以目標(biāo)檢測場景為例，下圖一融合利用了Teacher端的特征圖信息和結(jié)果分布信息，設(shè)計(jì)四個(gè)監(jiān)督損失指導(dǎo)Student模型的訓(xùn)練過程；下圖二在其基礎(chǔ)上進(jìn)一步改進(jìn)，采用mask的機(jī)制只關(guān)注前景區(qū)域的損失；下圖三又對前景和背景分別計(jì)算損失。

? ? 以上三種是相對較早的研究，我們可以深刻的感受到學(xué)術(shù)是一個(gè)思路不斷發(fā)散，持續(xù)精進(jìn)的嘗試過程。后續(xù)的知識蒸餾研究中，學(xué)者們將目光放到了Teacher端和Student端的差異上，同樣設(shè)計(jì)了Mask機(jī)制，重點(diǎn)突出差異的區(qū)域；隨著Transformer思想的興起，下圖二引入了Attention機(jī)制，分別在空間和通道維度上做注意力，并設(shè)計(jì)了三重?fù)p失監(jiān)督訓(xùn)練。

? ? ? ?此外，Teacher模型的數(shù)量可以是多個(gè)的，通過不斷的信息反饋，讓Student模型在不同階段自主地選擇Teacher模型，類似于強(qiáng)化學(xué)習(xí)的策略。下圖二中的環(huán)境可以包含相對靈活的信息，例如特征圖、Teacher端的軟標(biāo)簽、Teacher端的自身損失等；Agent來學(xué)習(xí)如何選擇策略（老師），它會給出一組Action，0/1代表選擇/不選擇；選擇好老師后，Student端會進(jìn)行相應(yīng)的聚合操作，并評估學(xué)習(xí)后的效果，得到一個(gè)獎(jiǎng)勵(lì)值返回給Agent，繼續(xù)下一輪選擇的調(diào)整。

? ? ? ?解耦是知識蒸餾的另一種改進(jìn)思想，傳統(tǒng)的輔助信息大都使用預(yù)測結(jié)果的分布，下圖中TCKD是置信度，NCKD是錯(cuò)誤分布，從表格中可以看出TCKD的存在會導(dǎo)致效果變差，但對于一些難度較大的數(shù)據(jù)集，使用TCKD會有一定程度的提升作用。

? ? ? ?分析上述情況可以得出：如果置信度預(yù)測的準(zhǔn)，則無法利用到錯(cuò)誤分布，軟標(biāo)簽失去了本身的意義；如果置信度預(yù)測的不準(zhǔn)，即便利用了錯(cuò)誤分布，也很難挽回自身不準(zhǔn)的局面。由此衍生出解耦的思想，置信度和錯(cuò)誤分布不再綁定，而是通過兩路分支，分別計(jì)算各自的損失，再通過一組可學(xué)習(xí)的損失權(quán)重來解耦二者的關(guān)系。

? ? ? ?從上述中可以看到，知識蒸餾方向已經(jīng)有很多理論成果，但目前的實(shí)際應(yīng)用中，仍不盡如人意，絕大部分的蒸餾模型只能活躍在文本數(shù)據(jù)上，CV方向受限制于分類、檢測的基礎(chǔ)任務(wù)，效果也往往略顯遜色。但這個(gè)方向非常具有實(shí)際意義，小模型迸發(fā)出的大可能，落地到端側(cè)后可以實(shí)現(xiàn)既小體量、又好效果，期待知識蒸餾能有更大的突破，讓人工智能跳出資

后面會努力更新AI相關(guān)技術(shù)點(diǎn)文章
?記得3連支持一下，感謝！感謝！

標(biāo)簽：科學(xué)程序員人工智能機(jī)器學(xué)習(xí)遷移學(xué)習(xí)知識蒸餾科技編程深度學(xué)習(xí)迪哥談AI