InstructGPT 論文精讀【論文精讀】

?
18:54
?Transformer模型就是一個(gè)對(duì)整個(gè)數(shù)據(jù)做壓縮的模型,把整個(gè)數(shù)據(jù)的信息壓縮進(jìn)模型的參數(shù)。現(xiàn)在假如信噪比變高了,而且標(biāo)注的信息跟你最后要評(píng)估的數(shù)據(jù)集可能更加近一點(diǎn),導(dǎo)致不需要壓縮那么多東西也可以實(shí)現(xiàn)同樣的效果。
?
25:13
?(復(fù)制自彈幕)
第一步,手動(dòng)選擇一些問題并以人工的方式給出答案,以上述作為數(shù)據(jù)集來訓(xùn)練SFT模型
第二步:讓訓(xùn)練好的SFT模型回答一些問題,人工對(duì)答案進(jìn)行打分,然后以這一部分?jǐn)?shù)據(jù)集來訓(xùn)練RM模型
第三步,根據(jù)RM模型的打分結(jié)果,繼續(xù)優(yōu)化SFT模型
?
49:33
?論文里面提到overfit的原因:如果不把36個(gè)pair放在一個(gè)batch里面,會(huì)導(dǎo)致每個(gè)答案被學(xué)習(xí)8次
?
01:04:14
?從技術(shù)上來講,InstructGPT還是一個(gè)挺實(shí)用的技術(shù),它告訴了大家一個(gè)方法,說給定一個(gè)比較大的語(yǔ)言模型,你怎樣通過一些標(biāo)注數(shù)據(jù),能迅速地把它在某一個(gè)你關(guān)心領(lǐng)域上的性能提升,使得它能達(dá)到一個(gè)實(shí)用的階段。
如果大家想用這種生成模型做產(chǎn)品,這篇文章就提供了一個(gè)實(shí)際可操作的思路。
標(biāo)簽: