深度學(xué)習(xí)知識蒸餾,小模型也有大可能

? ? ? 現(xiàn)如今,各種大模型橫行在AI的各個(gè)領(lǐng)域,有錢有資源的大公司都在暴力堆數(shù)據(jù),瘋狂卷資源,大模型的效果的確是讓人驚艷的,但實(shí)際落地的部署設(shè)備無法匹配這么高的算力需求,普通人也沒有鈔能力能夠在大模型上再做文章?;诖爽F(xiàn)狀,知識蒸餾的策略就應(yīng)運(yùn)而生了,它的目標(biāo)是讓小體量的模型能夠達(dá)到與大模型相媲美的效果。

? ? ??大家都知道,參數(shù)量并不是越大越好,達(dá)到一定的瓶頸后,即便擴(kuò)大參數(shù)量,模型性能的提升也是微乎其微,但對于相同參數(shù)量的模型,執(zhí)行不同的訓(xùn)練策略,往往能夠得到不同的效果。知識蒸餾也是關(guān)注訓(xùn)練策略上的調(diào)整,試圖通過設(shè)計(jì)策略讓模型既小又好,采用Teacher和Student一大一小兩種模型,二者共用相同的數(shù)據(jù),Teacher模型是已經(jīng)訓(xùn)練完成的,需要被凍住不再進(jìn)行二次訓(xùn)練,Student模型不僅要學(xué)習(xí)原始的數(shù)據(jù),還要學(xué)習(xí)Teacher模型的相關(guān)指導(dǎo)。

? ? ?Teacher模型負(fù)責(zé)提供輔助信息指導(dǎo)Student模型,信息的形式是多樣的,例如最終結(jié)果的分布、中間解題的過程、數(shù)據(jù)分布的關(guān)系等。下圖中將Teacher模型的預(yù)測結(jié)果作為軟標(biāo)簽,數(shù)據(jù)集的真實(shí)標(biāo)簽作為硬標(biāo)簽,Stuedent模型需要權(quán)衡軟損失和硬損失,不僅要學(xué)會任務(wù),還要學(xué)會Teacher模型的結(jié)果分布,兩種損失是相輔相成的。圖中的T代表溫度系數(shù),除以T可以重新設(shè)計(jì)預(yù)測結(jié)果的概率,讓軟標(biāo)簽變得更軟。溫度越高,相當(dāng)于多樣性更豐富,標(biāo)簽的概率是雨露均沾的,而溫度越低,越接近硬標(biāo)簽,只希望模型預(yù)測到最準(zhǔn)的效果。

? ? ?除了上述的Teacher模型提供結(jié)果分布的信息外,還可通過模型中間層的特征圖傳遞指導(dǎo)信息;也能使用樣本之間的關(guān)系,比如每個(gè)batch中樣本存在的差異等,但此種形式使用率不高,主要原因是數(shù)據(jù)的可控性不足,可能存在的離群點(diǎn)會讓模型學(xué)錯(cuò)方向。





? ? 以上三種是相對較早的研究,我們可以深刻的感受到學(xué)術(shù)是一個(gè)思路不斷發(fā)散,持續(xù)精進(jìn)的嘗試過程。后續(xù)的知識蒸餾研究中,學(xué)者們將目光放到了Teacher端和Student端的差異上,同樣設(shè)計(jì)了Mask機(jī)制,重點(diǎn)突出差異的區(qū)域;隨著Transformer思想的興起,下圖二引入了Attention機(jī)制,分別在空間和通道維度上做注意力,并設(shè)計(jì)了三重?fù)p失監(jiān)督訓(xùn)練。






? ? ? ?分析上述情況可以得出:如果置信度預(yù)測的準(zhǔn),則無法利用到錯(cuò)誤分布,軟標(biāo)簽失去了本身的意義;如果置信度預(yù)測的不準(zhǔn),即便利用了錯(cuò)誤分布,也很難挽回自身不準(zhǔn)的局面。由此衍生出解耦的思想,置信度和錯(cuò)誤分布不再綁定,而是通過兩路分支,分別計(jì)算各自的損失,再通過一組可學(xué)習(xí)的損失權(quán)重來解耦二者的關(guān)系。


? ? ? ?從上述中可以看到,知識蒸餾方向已經(jīng)有很多理論成果,但目前的實(shí)際應(yīng)用中,仍不盡如人意,絕大部分的蒸餾模型只能活躍在文本數(shù)據(jù)上,CV方向受限制于分類、檢測的基礎(chǔ)任務(wù),效果也往往略顯遜色。但這個(gè)方向非常具有實(shí)際意義,小模型迸發(fā)出的大可能,落地到端側(cè)后可以實(shí)現(xiàn)既小體量、又好效果,期待知識蒸餾能有更大的突破,讓人工智能跳出資