最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

chatgpt與對(duì)話的強(qiáng)化學(xué)習(xí)

2023-02-17 18:00 作者:黑心の女巫  | 我要投稿

(1)問(wèn)答/選擇/對(duì)話任務(wù)淺談:

?

先看“找答案的問(wèn)題。方法是尋找可能相關(guān)的(多個(gè))Knowledge source,然后用材料和問(wèn)題共同生成出回答。

(訓(xùn)練模型當(dāng)然可以像填詞任務(wù)一樣,無(wú)中生有填出回答來(lái)<->讓答案直接蘊(yùn)含在參數(shù)里。比如“Q:_瓜,A:北/南?”,就能用互聯(lián)網(wǎng)大量語(yǔ)料訓(xùn)練出的參數(shù),鑒別常見(jiàn)固定搭配。

但海量的知識(shí)不可能被那么點(diǎn)參數(shù)表達(dá)。使用材料,參數(shù)意味著方法,才能普遍有效。比如“Q:小明中學(xué)時(shí)是個(gè)什么樣的人?” 訓(xùn)練材料從未出現(xiàn)過(guò)小明,但模型就利用檢索到的小明材料,將與問(wèn)題最相關(guān)的部分,結(jié)合問(wèn)題信息,生成回答。

判斷這個(gè)問(wèn)題是詢問(wèn)人性質(zhì)的,和尋找材料判斷人性質(zhì)的句子,關(guān)鍵詞。很容易有訓(xùn)練例子,且只需少量參數(shù)就能完成所有此類問(wèn)題)

(尋找材料也不用擔(dān)心不匹配原詞的遺漏,因?yàn)橄嗦?lián)系的詞有相近的詞向量)

?

下面兩圖是從材料中選擇關(guān)鍵詞來(lái)回答。關(guān)注重點(diǎn)是信息流向,將問(wèn)題整體與材料的各個(gè)部分計(jì)算注意,或?qū)⒚慷尾牧吓c問(wèn)題的每個(gè)部分分別計(jì)算注意。

?

類似的,達(dá)成信息結(jié)合的奇怪方法有很多。

但Transformer“聯(lián)系一切”的特性,完全可以解決這類考慮。中間加個(gè)分隔符,放一起就行。

所有GPT模型使用的就是transformer架構(gòu),多頭自注意力的encoder與decoder。


第二類,推理。

具體的方法根據(jù)不同的問(wèn)題類型八仙過(guò)海。推理的重點(diǎn)是,要通過(guò)很多個(gè)hop的推進(jìn),命題的綜合,才能得到結(jié)論。

下面展示一種,使用圖神經(jīng)網(wǎng)絡(luò)的,(知識(shí),邏輯,人的思維,好像比較符合圖的性質(zhì),節(jié)點(diǎn)如何綜合產(chǎn)生新的推論,選取有效的節(jié)點(diǎn),通路云云...),體會(huì)下就好。


第三類,對(duì)話。

比如 圖中,利用之前的“對(duì)話”部分,來(lái)推斷完善當(dāng)前的含義。?

解決方法就是用rnn,注意力等各種方法,用上之前對(duì)話提取出的信息。?

比如,下圖中,對(duì)待轉(zhuǎn)化為答案的材料部分每一步都綜合此前問(wèn)題里材料在該步的狀態(tài)。(如果前一個(gè)問(wèn)題是“小明是誰(shuí)?”。那每一層變化都會(huì)使材料轉(zhuǎn)化的信息更接近對(duì)小明的介紹。那下一個(gè)問(wèn)題“多高”,就會(huì)加上上個(gè)問(wèn)題的小明信息,在此基礎(chǔ)上尋找關(guān)于其身高的部分。)

(使用chatgpt時(shí)也有發(fā)現(xiàn),越接近的對(duì)話,對(duì)當(dāng)前對(duì)話的影響越大。但這并不代表著對(duì)此前對(duì)話的綜合一定要越遠(yuǎn)越少用。設(shè)想下,我們可以根據(jù)提問(wèn)的聯(lián)系程度的來(lái)計(jì)算出參考不同組對(duì)話內(nèi)容的注意力。)

當(dāng)然對(duì)話不一定是“甲:Q->乙:A |甲:Q->乙:A”的問(wèn)題與回答不關(guān)聯(lián)的連續(xù)發(fā)問(wèn);也可以是“甲:Say->乙:S->甲:S->乙:S”的環(huán)環(huán)對(duì)應(yīng),攻守兼?zhèn)?;甚至甲乙丙蘿卜開(kāi)會(huì)等。

那樣就不能只看Q,QA放一起,而需要分開(kāi)看待時(shí)間序上每一個(gè)節(jié)點(diǎn)的發(fā)言。

?

對(duì)話的知識(shí)背景也會(huì)不斷發(fā)生變化,引入新的,舊的不再使用等。

這樣,在綜合通過(guò)某種方式判斷相關(guān)的此前對(duì)話時(shí),就需要對(duì)非并集知識(shí)背景 的處理錯(cuò)開(kāi)維度,利用合并的“大背景”,來(lái)產(chǎn)生全面多角度的回答。

?

最后一個(gè)關(guān)鍵問(wèn)題是學(xué)習(xí)調(diào)整的方式,選擇題有標(biāo)準(zhǔn)答案,但生成一個(gè)長(zhǎng)回答,并不能簡(jiǎn)單據(jù)其參考回答詞語(yǔ)的一一對(duì)應(yīng)判斷其好壞。在下一部分解釋。

?

(2)Chatgpt主要區(qū)別的解釋

Chatgpt的訓(xùn)練包括監(jiān)督學(xué)習(xí)和使用人類反饋的強(qiáng)化學(xué)習(xí)。

監(jiān)督學(xué)習(xí)部分和常規(guī)無(wú)異,即預(yù)測(cè)互聯(lián)網(wǎng)文本數(shù)據(jù),句子的下一個(gè)單詞(token)或被mask的單詞。(transformer,多頭自注意encoder,decoder)

?

人類反饋分為三步

【1】構(gòu)建“議論文”數(shù)據(jù)集,微調(diào)(全語(yǔ)料預(yù)訓(xùn)練)模型

之前的廣泛填詞訓(xùn)練,只算培養(yǎng)“語(yǔ)感”,使句子選詞和構(gòu)成符合人類習(xí)慣,無(wú)法實(shí)質(zhì)回答問(wèn)題。

精致數(shù)據(jù)集的構(gòu)建,先選取好問(wèn)題,然后交給做題家去點(diǎn)寫(xiě)好回答,再加上挑選的從問(wèn)答API獲取的較好回答。形成許多“發(fā)起——回答”對(duì)。(用戶看到的回答風(fēng)格,主要就是這些專家的風(fēng)格)

?

使用這些數(shù)據(jù)訓(xùn)練模型以實(shí)現(xiàn)微調(diào)。依然是預(yù)測(cè)token的監(jiān)督學(xué)習(xí)

我覺(jué)得應(yīng)該只在“回答部分”設(shè)置token任務(wù)。讓用詞風(fēng)格有回答問(wèn)題的感覺(jué),而不會(huì)反向提問(wèn)。

?



?

【2】請(qǐng)人給不同回答契合程度排序,獲得分?jǐn)?shù)標(biāo)簽。然后把每個(gè)“發(fā)起——回答”對(duì)作為新模型輸入,輸出一個(gè)對(duì)契合程度的打分,從而獲得回報(bào)模型。

(設(shè)想下應(yīng)該不難。對(duì)標(biāo)簽,若用10個(gè)排序,第一1.0分,第二依次0.9。reward model就將GPT-3 decoder最后一層接到線性層,最后映射到0-1,而且應(yīng)該使用默認(rèn)的預(yù)訓(xùn)練參數(shù))

?


【3】用PPO強(qiáng)化學(xué)習(xí)來(lái)優(yōu)化

?


先簡(jiǎn)單介紹強(qiáng)化學(xué)習(xí),核心為下圖紅圈部分。

對(duì)一個(gè)狀態(tài)有多種動(dòng)作,每種會(huì)改變成為新的狀態(tài)并獲得獎(jiǎng)賞。

那只需要利用(狀態(tài)軌跡,獎(jiǎng)賞軌跡)的行為反饋,來(lái)學(xué)習(xí)到{(特定狀態(tài),特定行為)->(預(yù)期即時(shí)獎(jiǎng)賞,未來(lái)獎(jiǎng)賞潛力)}的預(yù)測(cè)。

就能通過(guò)各種有隨機(jī)性的搜索策略,在動(dòng)作空間中尋找較優(yōu)動(dòng)作軌跡,及對(duì)應(yīng)的理想最終結(jié)果。

?

例子:用折扣回報(bào),來(lái)預(yù)估在未來(lái)回報(bào)的價(jià)值。時(shí)間越遠(yuǎn)打上折扣越大。

可以看出,狀態(tài)的未來(lái)回報(bào)潛力,不等于走指定步數(shù)后實(shí)際回報(bào)和的平均。

其能反映相對(duì)的潛力區(qū)別,并蓋過(guò)短視的即時(shí)獎(jiǎng)勵(lì)的影響即可。

PPO算法通過(guò)actor網(wǎng)絡(luò)“生成,并用critic網(wǎng)絡(luò)評(píng)估狀態(tài)價(jià)值。

要注意到critic網(wǎng)絡(luò)不是 剛才的reward model。RM被critic網(wǎng)絡(luò)使用,但其不被訓(xùn)練。

如果RM是體重計(jì)。那Critic就是監(jiān)督你執(zhí)行減肥計(jì)劃的教練。

狀態(tài)價(jià)值,就是該狀態(tài)在未來(lái)采取“概率云”動(dòng)作的情況下,所產(chǎn)生的獎(jiǎng)賞潛力。

雖然V(S_t)的構(gòu)成里,除了能被行動(dòng)反饋驗(yàn)證的r外,還一定有“射線”:V(S_t+T),但軌跡的終點(diǎn)狀態(tài)價(jià)值一定為0。(游戲結(jié)束的瞬間狀態(tài),不會(huì)影響游戲得分);或當(dāng)γ的次數(shù)(T)大到一定程度,其影響就很小<-->讓N步內(nèi)的回報(bào)價(jià)值預(yù)測(cè)不出大偏差,價(jià)值評(píng)價(jià)就不會(huì)脫離實(shí)際,再讓V(S_t)的T步外的價(jià)值預(yù)測(cè)與V(S_t+T)相符,錦上添花。

?

把 [狀態(tài)S0,狀態(tài)價(jià)值估計(jì)V_S0,動(dòng)作A0,動(dòng)作回報(bào)R1,log (在S0狀態(tài)下采取動(dòng)作A0的概率P) ] 放入經(jīng)驗(yàn)池,用于下一步學(xué)習(xí)。


強(qiáng)化學(xué)習(xí)的具體進(jìn)行有on-policy與off-policy兩種。

簡(jiǎn)單來(lái)說(shuō),off-policy就是觀察非本策略行動(dòng)所產(chǎn)生的回報(bào),然后再用本策略來(lái)解決問(wèn)題。(比如看人別人玩游戲,學(xué)到一些“妙手”,再回家用自己的策略玩)。

而on-policy就是邊采取本策略,邊利用獲得的回報(bào)調(diào)整。(自己玩游戲受挫了,或得了高分,就做出調(diào)整)

可以看出下圖的軌跡中,左圖是與最終選擇無(wú)關(guān)聯(lián)的,且很多樣。而右圖都是同一策略的微調(diào),很集中。

兩種策略無(wú)疑都有其意義,顯然,off-policy更能博聞強(qiáng)識(shí),啟發(fā)新策略,而on-policy更能精益求精,將當(dāng)前策略優(yōu)化調(diào)整到完美。

PPO算法是on-policy算法。

Actor的更新:調(diào)整生成模型的參數(shù),讓生成的“優(yōu)勢(shì)”大的動(dòng)作選擇概率更大,具體見(jiàn)圖片解釋。(注意,搜索的過(guò)程是隨機(jī)的,但每一步向下搜索的概率是參數(shù)生成決定的。)

Critic網(wǎng)絡(luò)更新,就是要讓經(jīng)驗(yàn)池中的Critic價(jià)值估計(jì),接近reward折扣回報(bào)。

?

生成模型可能會(huì)走“討好”Reward的“捷徑”,甚至生成不像人話的句子來(lái)“討好”。解決方案是在訓(xùn)練目標(biāo)中加入通用的語(yǔ)言模型目標(biāo)。?

?

【4】主流程小結(jié)

僅僅通過(guò)給回答打分的學(xué)習(xí),就能獲得對(duì)“什么是好的回答”的普遍的分析能力。才是本問(wèn)題的神奇之處。強(qiáng)化學(xué)習(xí)只是用于探索出獲得長(zhǎng)生成后的高reward的生成策略。即使沒(méi)有強(qiáng)化學(xué)習(xí),依然有,高reward==好結(jié)果(前提是其生成模型能達(dá)成通用的語(yǔ)言模型目標(biāo),比如人正常寫(xiě)回答)。

?

模型先學(xué)的填token,能學(xué)到語(yǔ)言風(fēng)格,固定搭配,回答特定類型問(wèn)題的方式(像上一大節(jié)里的找答案模型)。但不能獲得“好”的回答。這個(gè)“好”,對(duì)不同問(wèn)題是有遷移性的。比如簡(jiǎn)潔,意思不重復(fù),有禮貌,利用語(yǔ)境等特點(diǎn)。因?yàn)榧尤肓?,使生成盡量具有長(zhǎng)期reward的強(qiáng)化學(xué)習(xí)。使生成結(jié)果符合人所判斷的“好”。


強(qiáng)化學(xué)習(xí)訓(xùn)練完成后,進(jìn)行生成時(shí),reward依然使用,用于指導(dǎo)好回答的搜索。

但若此時(shí)放棄reward,也會(huì)比單純填token訓(xùn)練出的模型效果好。(游戲打多了,閉眼/不接受反饋也會(huì)玩得比之前好)

?

當(dāng)然主流程有很多東西沒(méi)提到,比如其檢索庫(kù)來(lái)幫助生成的方法,還有對(duì)各領(lǐng)域問(wèn)題的專門(mén)處理。如模型肯定不能像學(xué)習(xí)日常語(yǔ)言一樣學(xué)會(huì)所有編程語(yǔ)言。而是在編程語(yǔ)言的體系下進(jìn)行學(xué)習(xí)與生成。它的代碼普遍可以運(yùn)行,也很方便抄來(lái)常見(jiàn)的,知名問(wèn)題的代碼。

但它不是畢竟自頂向下的“設(shè)計(jì)”,而是從前到后的“生成”。常見(jiàn)的簡(jiǎn)單問(wèn)題可以“照貓畫(huà)虎”,需要再設(shè)計(jì)的問(wèn)題,無(wú)法解決,最多“望之像有點(diǎn)聯(lián)系的代碼”。

?

?


【5】discuss

Chatgpt和前身InstructGPT在模型和訓(xùn)練上沒(méi)有任何區(qū)別。只是Chatgpt用更多的優(yōu)質(zhì)人寫(xiě)回答數(shù)據(jù)集,人工標(biāo)注標(biāo)簽,更大量的訓(xùn)練,大力出奇跡,對(duì)普通人觀感提升很多,才得以套皮再上市。

?

本文語(yǔ)言模型的原理一目了然,之前研究過(guò)的alphafold2也沒(méi)提出什么新東西,還縫得亂七八糟,很不美觀。但就是能通過(guò)工程的方式,接近常規(guī)方法的極限??梢?jiàn)“劍宗”之強(qiáng)盛,“氣宗”之式微,以及transformer的潛力。

?

?Chatgpt主要功能應(yīng)該是搜索引擎的輔助,和進(jìn)行一些Ai考慮較周全的對(duì)話。其每一個(gè)新句子都會(huì)考慮到之前所有的話,所以當(dāng)然可以疊加使用所給條件,進(jìn)行簡(jiǎn)單推理。但回答還是缺乏全局性,設(shè)計(jì)性。說(shuō)到底,它只是語(yǔ)言生成模型。

(和它類似的有很多,還有定制風(fēng)格的,它只是完善到了普通人覺(jué)得沒(méi)那么奇怪的程度)。

?


?

傳聞Gpt4將會(huì)使用多模態(tài)數(shù)據(jù),文字,視頻,聲音等。這才是值得期待的。

我來(lái)想象的話,概念不等于詞語(yǔ),應(yīng)該有更高的維度,且序列結(jié)構(gòu)本身就是一種局限,比如應(yīng)該抽象化為像有權(quán)重,有連接的圖一樣的結(jié)構(gòu)。


chatgpt與對(duì)話的強(qiáng)化學(xué)習(xí)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
枣强县| 疏勒县| 岗巴县| 靖西县| 隆子县| 尼玛县| 喀什市| 三门峡市| 和田市| 绥德县| 太康县| 洛宁县| 水富县| 望都县| 海口市| 阳原县| 读书| 玉田县| 商水县| 七台河市| 垣曲县| 玉林市| 通榆县| 孟连| 衡东县| 遂昌县| 荆州市| 乌拉特前旗| 辰溪县| 宁陕县| 吉木萨尔县| 垫江县| 宁国市| 土默特右旗| 新晃| 庆云县| 绥江县| 即墨市| 宁明县| 铜山县| 鹿泉市|