散文網(wǎng) » 筆記 »全部筆記 » InstructGPT 論文精讀【論文精讀】

InstructGPT 論文精讀【論文精讀】

2022-12-30 16:31 作者:層林盡染 0人讀過 | 我要投稿

?

18:54

?

Transformer模型就是一個(gè)對(duì)整個(gè)數(shù)據(jù)做壓縮的模型，把整個(gè)數(shù)據(jù)的信息壓縮進(jìn)模型的參數(shù)。現(xiàn)在假如信噪比變高了，而且標(biāo)注的信息跟你最后要評(píng)估的數(shù)據(jù)集可能更加近一點(diǎn)，導(dǎo)致不需要壓縮那么多東西也可以實(shí)現(xiàn)同樣的效果。

?

25:13

?

（復(fù)制自彈幕）

第一步，手動(dòng)選擇一些問題并以人工的方式給出答案，以上述作為數(shù)據(jù)集來訓(xùn)練SFT模型

第二步：讓訓(xùn)練好的SFT模型回答一些問題，人工對(duì)答案進(jìn)行打分，然后以這一部分?jǐn)?shù)據(jù)集來訓(xùn)練RM模型

第三步，根據(jù)RM模型的打分結(jié)果，繼續(xù)優(yōu)化SFT模型

?

49:33

?

論文里面提到overfit的原因：如果不把36個(gè)pair放在一個(gè)batch里面，會(huì)導(dǎo)致每個(gè)答案被學(xué)習(xí)8次

?

01:04:14

?

從技術(shù)上來講，InstructGPT還是一個(gè)挺實(shí)用的技術(shù)，它告訴了大家一個(gè)方法，說給定一個(gè)比較大的語(yǔ)言模型，你怎樣通過一些標(biāo)注數(shù)據(jù)，能迅速地把它在某一個(gè)你關(guān)心領(lǐng)域上的性能提升，使得它能達(dá)到一個(gè)實(shí)用的階段。

如果大家想用這種生成模型做產(chǎn)品，這篇文章就提供了一個(gè)實(shí)際可操作的思路。

標(biāo)簽：

InstructGPT 論文精讀【論文精讀】的評(píng)論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩(shī)歌空間日志經(jīng)典語(yǔ)句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

InstructGPT 論文精讀【論文精讀】

InstructGPT 論文精讀【論文精讀】的評(píng)論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

InstructGPT 論文精讀【論文精讀】

本文作者的其他文章

InstructGPT 論文精讀【論文精讀】的評(píng)論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

InstructGPT 論文精讀【論文精讀】的評(píng)論 (共條)