無需從頭開始:六種可組合的轉(zhuǎn)換方法實(shí)現(xiàn)Transformer模型的高效擴(kuò)展與訓(xùn)練
Transformer做大或者是做深,都是非常困難的,而且每一次我們重新訓(xùn)練模型都會(huì)產(chǎn)生巨大的開銷,為什么我們不能使用保留已有的能力的情況下接著訓(xùn)練呢?
這篇論文提出了六種可組合的轉(zhuǎn)換方法,用于在保留功能的同時(shí)增加基于Transformer的神經(jīng)網(wǎng)絡(luò)的大小。這些轉(zhuǎn)換允許擴(kuò)展模型的容量,而無需從頭開始重新訓(xùn)練。作者為每種轉(zhuǎn)換提供了精確功能保留的證明。所提出的方法旨在通過在訓(xùn)練過程中逐漸擴(kuò)展架構(gòu),實(shí)現(xiàn)更大、更強(qiáng)大模型的高效訓(xùn)練流程。

下面論文中提到的6種可組合的轉(zhuǎn)換:
1. MLP內(nèi)部表示的大小 (Size of MLP Internal Representation):
這種轉(zhuǎn)換涉及改變MLP(多層感知器)內(nèi)部表示的維度。通過增加或減少隱藏層的大小,可以改變模型的容量和復(fù)雜性。
2. 注意力頭的數(shù)量 (Number of Attention Heads):
在多頭注意力機(jī)制中,這種轉(zhuǎn)換涉及改變并行執(zhí)行的注意力運(yùn)算的數(shù)量。增加頭數(shù)可以增加模型捕捉不同類型信息的能力。
3. 注意力頭輸出表示的大小 (Size of the Attention Heads Output Representation):
這種轉(zhuǎn)換涉及改變每個(gè)注意力頭的輸出表示的維度。這可以影響每個(gè)頭捕捉的信息的復(fù)雜性和豐富性。
4. 注意力輸入表示的大小 (Size of the Attention Input Representation):
這種轉(zhuǎn)換涉及改變注意力機(jī)制的輸入表示的維度。這可以影響模型對(duì)輸入信息的解釋和處理方式。
5. Transformer層輸入/輸出表示的大小 (Size of the Transformer Layers Input/Output Representations):
這種轉(zhuǎn)換涉及改變Transformer層的輸入和輸出表示的維度。這可以影響信息在模型的不同層之間的流動(dòng)和處理方式。
6. 層數(shù) (Number of Layers):
這種轉(zhuǎn)換涉及改變模型的層數(shù)。增加層數(shù)可以增加模型的深度和容量,允許模型捕捉更復(fù)雜的特征和模式。
論文鏈接:https://readpaper.com/paper/4788609939601883137?channel=bilibili
特邀作者:早稻田大學(xué)計(jì)算機(jī)系在讀博士王軍杰