大模型時(shí)代科研的思路
efficient:parameters efficient fine-tuning;做模型的效率,在下游任務(wù)上進(jìn)行少量參數(shù)的更新。(關(guān)注的是如何對(duì)大模型進(jìn)行微調(diào))
隨著模型越來(lái)越大,模型的能力也越來(lái)越強(qiáng),與其在小模型上來(lái)做預(yù)訓(xùn)練,某種程度上是不如在大模型的基礎(chǔ)上進(jìn)行少量參數(shù)的微調(diào)更新的。因?yàn)榇竽P偷臄M合能力更強(qiáng),基座模型能有保證,在這方面來(lái)做也是為了探究大模型的能力邊界。在它已經(jīng)學(xué)到的世界知識(shí)基礎(chǔ)上進(jìn)行finetuning能夠帶來(lái)多少的效果提升。
另一方面,小模型上,對(duì)于訓(xùn)練數(shù)據(jù)集的大小,模型是否已經(jīng)學(xué)到部分知識(shí)也是存疑的,另一方面,關(guān)于基礎(chǔ)的信息模型是也沒(méi)有學(xué)到的,那部分的知識(shí)能有多重要,以及新的模型數(shù)據(jù)集中是不是應(yīng)該添加這部分的信息,其實(shí)這也是肯定的—是一種高層信息和底層信息的關(guān)系,在通用的基礎(chǔ)理解之上再構(gòu)建更高級(jí)的信息。
adapter layer:在原本模型的基礎(chǔ)上再增加一些層,在模型更新時(shí),只更新這部分參數(shù)。
prompt tuning:在下游fine- tuning時(shí),將輸入構(gòu)建成預(yù)訓(xùn)練的形式。全量更新。??
exiting stuff with new direction:在大模型基礎(chǔ)上研究新方向。
causality learning
in-context learning
FFN:Feedforward network(前向網(wǎng)絡(luò),lly也提到和人的神經(jīng)建模方式類(lèi)似,沒(méi)有反向的梯度更新)
chain of thought
prompting
plug and play:研究即插即用的小模塊,通用的模型小部件的研究,但是不需要對(duì)模型整體進(jìn)行訓(xùn)練才能驗(yàn)證的模塊,而且是能夠在多種模型上發(fā)揮作用的。???
這種類(lèi)型的研究往往代碼量比較少,但是能產(chǎn)生通用的效果,能夠在多個(gè)模型進(jìn)行插入驗(yàn)證效果。
目前看來(lái)是實(shí)行起來(lái)比較友好的。??
研究損失函數(shù)的:non-local loss,focal loss
data argumentation:數(shù)據(jù)增強(qiáng)的,比如mirgen
datasets, evaluationg and survey:做數(shù)據(jù)集,驗(yàn)證評(píng)測(cè)和綜述類(lèi)文章。
其他訪談涉及到的方向:
retrival transformers:openai首席科學(xué)家提到的技術(shù)方向,去年openai一直在做的方向
reasoning tokens
alignment:這塊的解釋是對(duì)模型進(jìn)行限制,來(lái)讓模型向人類(lèi)世界或者真實(shí)世界靠齊,屬于chatgpt下面比較熱門(mén)的topic。具體應(yīng)該設(shè)計(jì)RL的相關(guān)東西。
RL:dota2 去年openai比較重要的研究主要分為兩塊,一個(gè)是chatgpt,另一個(gè)就是強(qiáng)化學(xué)習(xí)。強(qiáng)化學(xué)習(xí)對(duì)于alignment有重要作用。
關(guān)于gpt大模型的本質(zhì)的看法:
gpt是通過(guò)NSP任務(wù)學(xué)習(xí)整個(gè)世界,本質(zhì)是一個(gè)概率模型,學(xué)習(xí)到的是續(xù)寫(xiě)任務(wù),給出前面的內(nèi)容,按照學(xué)到的世界知識(shí)續(xù)寫(xiě)最有可能的后面內(nèi)容。但是學(xué)到的東西和我們想要它做的下游任務(wù)或者生成的內(nèi)容不一定可控,是要結(jié)合其他模型進(jìn)行控制的,也就是fine-tuning。表現(xiàn)在chatgpt里就是又添加了RLHF等模塊。
另外大佬們都提到做研究的paradimm范式已經(jīng)被改變了:直觀上是講做大模型已經(jīng)行不通了,普通人機(jī)構(gòu)根本沒(méi)有資源來(lái)這么做,只能靠微調(diào)進(jìn)行,以及更深層次的范式改變是什么????
以及l(fā)stm中沒(méi)學(xué)習(xí)到一個(gè)特征就會(huì)產(chǎn)生一個(gè)sentiment node的想法。
評(píng)論區(qū)摘要
追求性能沒(méi)有創(chuàng)新點(diǎn)?有限資源的輕量化和快速化在系統(tǒng)領(lǐng)域比較多?系統(tǒng)領(lǐng)域(MobiSys,MobiCom,SenSys等系統(tǒng)頂會(huì))卷了好長(zhǎng)時(shí)間了。理論方面,勉強(qiáng)還可以用結(jié)合symbolic搞搞ethics和fairness?
PEFT屬于比較火且實(shí)用的方向:
Ruder的Modular Deep Learning綜述https://www.ruder.io/modular-deep-learning/
gcn;
做論文的要點(diǎn)點(diǎn):
peft:ladder side tuning Efficient Video Understanding (EVL) (ECCV22) 《Prompting Visual-Language Models for Efficient Video Understanding》雖然是視覺(jué)領(lǐng)域,但在李滿主要是peft方法nb
lightweight問(wèn)題:msa/reshape+adapter去到分別處理spatial 和 temporal self-attention,除了something-something這種非常重時(shí)序識(shí)別的效果都極佳
RemoteSensing
知識(shí)蒸餾輕量化是很火的方向;
facebook dmca:https://ipfs.io/ipfs/QmYyucgBQVfs9JXZ2MtmkGPAhgUjNgyGE6rcJT1KybQHhp/index.html
domain adaption和generalization 需要的算力并不多,大部分結(jié)果就是224的圖 resnet18/50跑一下就可以了,不過(guò)這個(gè)比較偏ML了,目前也很卷了。。
yizhu視頻中提到的論文:
Scaling Vision Transformers to 22 Billion Parameters, CV的大模型
AIM: Adapting Image Models for Efficient Video Action Recognition,朱老師他們對(duì)于視頻理解剛發(fā)表的論文
Parameter-Efficient Transfer Learning for NLP ,第一次出現(xiàn)PEFT概念的論文
Learning to Prompt for Vision-Language Models (CoOP), Prompt在CV中應(yīng)用的論文,多模態(tài)的工作(文本+圖片)
Visual Prompt Tuning, Prompt在純視覺(jué)中應(yīng)用的論文
PEFT: Parameter-Efficient Fine-Tuning of Billion-Scale Models on Low-Resource Hardware, huggingface的對(duì)于PEFT的blog
Towards a Unified View of Parameter-Efficient Transfer Learning, 很好的描寫(xiě)PEFT綜述論文
Unsupervised Semantic Segmentation with Self-supervised Object-centric Representations, 第二個(gè)方向的論文例子,新topic中的研究
MixGen: A New Multi-Modal Data Augmentation, 第三個(gè)方向中的論文例子, 即插即用的模塊
BigDetection: A Large-scale Benchmark for Improved Object Detector Pre-training,第四個(gè)方向中數(shù)據(jù)庫(kù)的例子
A Comprehensive Study of Deep Video Action Recognition,第四個(gè)方向中綜述的例子
新topic:Causality Learning,Hinton的FFNet; In-context Learning; Chain of Thought Prompting