大模型時(shí)代下做科研的四個(gè)思路【論文精讀·52】

四大方向

1. Efficiency (PEFT - parameter efficient fine tuning)
2. Existing stuff (pre-trained model), new directions
3. Plug-and-play,例如新的loss function,新的data augmentation的方法,或者新的模塊,可以應(yīng)用到各種領(lǐng)域的,只需要選取一些baseline說明方法的有效性
4. Dataset (構(gòu)建一個(gè)dataset), evaluation and survey (綜述)
1. Efficiency (PEFT)
AIM - adapting image models for efficient video action recognition
- 回顧之前的工作,計(jì)算代價(jià)大,需要full fine tune.
- 研究動(dòng)機(jī)來自CLIP,考慮到基座模型泛化性會(huì)越來越好,但是如果進(jìn)行fine-tuned會(huì)有災(zāi)難性遺忘的問題,overfit得不償失。能否把模型參數(shù)鎖住,進(jìn)行一些周邊的改動(dòng)
2種主要方法
Adapter

上圖展示了adapter layer和它插進(jìn)transformer block里
加adapter的作用
- 圖中灰色的部分是frozen,模型微調(diào)過程中只訓(xùn)練adapter層,所以說是parameter efficient fine tuning,可訓(xùn)練參數(shù)量很少
Prompt (提示) tuning
拿CLIP來說,需要人工的prompt,稱為hard prompt, 因此CoOP這篇文章提出,萬物皆可學(xué)習(xí),我直接學(xué)prompt,稱為softprompt

圖中綠色部分是learnable vector (context),模型訓(xùn)練過程中參數(shù)鎖住不動(dòng),只學(xué)習(xí)prompt vector

以上是prompt tuning最簡(jiǎn)單的形式,之后還有很多后續(xù)工作,有文本的,就有視覺的prompt tuning,visual-prompt tuning (VPT)

VPT分為shallow和deep (圖中只有紅色是可訓(xùn)練的部分)
- shallow和文本端端差不多,把learnable prompt加在圖像embedding之前,只訓(xùn)練prompt
- deep是在每一層都加上learnable prompt
共通性:對(duì)不同下游應(yīng)用友好,computationally efficient
AIM也是類似的思路

2. Existing stuff (pre-trained model), new directions
現(xiàn)在能別碰預(yù)訓(xùn)練就別碰,能zero-shot就zero-shot,不能的話就few-shot,再不行就fine-tune,盡量用訓(xùn)練好的模型,盡量選一個(gè)新的,比較超前的,沒有成熟benchmark的領(lǐng)域,專心在提高自己的方法上

想要強(qiáng)調(diào)的是,用預(yù)訓(xùn)練的模型,來做一些新的topic
3. Plug-and-play
- 損失函數(shù)
- 模塊
- 數(shù)據(jù)增強(qiáng)
證明有效性,不需要打敗sota,只需要在很多數(shù)據(jù)集上達(dá)到統(tǒng)一的提升,只要在統(tǒng)一的setting (可大可小) 里進(jìn)行公平的比較
一個(gè)例子:MixGen
代碼就三行

主要思路就是把圖像縫合起來,文本直接拼接,形成新的訓(xùn)練數(shù)據(jù)圖像文本對(duì)
4. Dataset (構(gòu)建一個(gè)dataset), evaluation and survey (綜述)
- benchmark dataset
- evaluation metric
- 合并數(shù)據(jù)集(但不是簡(jiǎn)單合并,比如class要重新分布之類的)