散文網(wǎng) » 科技 »數(shù)碼 » 看動(dòng)畫(huà)輕松學(xué)習(xí)23種C++設(shè)計(jì)模式-滟滟隨波千萬(wàn)里，何處春江無(wú)月明

看動(dòng)畫(huà)輕松學(xué)習(xí)23種C++設(shè)計(jì)模式-滟滟隨波千萬(wàn)里，何處春江無(wú)月明

2023-03-29 15:13 作者:bili_68802470155 0人讀過(guò) | 我要投稿

從制造者那里理解到ChatGPT是如何樹(shù)立的內(nèi)部故事

看動(dòng)畫(huà)輕松學(xué)習(xí)23種C++設(shè)計(jì)模式

download：https://www.zxit666.com/5634/

2022年11月底，OpenAI在沒(méi)有任何宣傳的狀況下發(fā)布了ChatGPT，這家總部位于舊金山的人工智能公司對(duì)此并無(wú)太多希冀。當(dāng)然，OpenAI內(nèi)部的人也沒(méi)有準(zhǔn)備好迎接病毒式的超級(jí)搶手。自那時(shí)以來(lái)，該公司不斷在努力躊躇不前，并努力應(yīng)用這一勝利。

OpenAI的政策工作者Sandhini Agarwal表示，公司內(nèi)部將其視為“研討預(yù)覽”，這是對(duì)兩年前技術(shù)的愈加成熟的版本，更重要的是，它試圖經(jīng)過(guò)搜集公眾的反應(yīng)來(lái)消弭其中的一些缺陷。在OpenAI工作的科學(xué)家Liam Fedus表示：“我們不想把它吹噓成一個(gè)嚴(yán)重的根本停頓?！?/p>

為了理解這個(gè)聊天機(jī)器人背后的內(nèi)情故事——它是如何制造的，自發(fā)布以來(lái)OpenAI如何更新它，以及其制造者對(duì)其勝利的見(jiàn)地——我與四位協(xié)助構(gòu)建這個(gè)成為有史以來(lái)最受歡送的互聯(lián)網(wǎng)應(yīng)用之一的人交談。除了Agarwal和Fedus，我還與OpenAI的結(jié)合開(kāi)創(chuàng)人John Schulman和OpenAI對(duì)齊團(tuán)隊(duì)的擔(dān)任人Jan Leike交談，該團(tuán)隊(duì)努力于處理讓AI依照用戶(hù)的意愿去做事（而不是別的）的問(wèn)題。

我得出的結(jié)論是，OpenAI對(duì)其研討預(yù)覽的勝利依然感到困惑，但已抓住時(shí)機(jī)推進(jìn)這項(xiàng)技術(shù)的開(kāi)展，察看數(shù)百萬(wàn)人如何運(yùn)用它，并努力處理呈現(xiàn)的最嚴(yán)重問(wèn)題。

自11月以來(lái)，OpenAI曾經(jīng)屢次更新了ChatGPT。研討人員正在運(yùn)用一種名為對(duì)立性鍛煉的技術(shù)來(lái)阻止ChatGPT讓用戶(hù)誘導(dǎo)它表現(xiàn)惡劣（稱(chēng)為越獄）。這項(xiàng)工作讓多個(gè)聊天機(jī)器人相互對(duì)立：一個(gè)聊天機(jī)器人充任對(duì)手并經(jīng)過(guò)生成文本攻擊另一個(gè)聊天機(jī)器人，迫使其打破通常的約束并產(chǎn)生不需求的回應(yīng)。勝利的攻擊將被添加到ChatGPT的鍛煉數(shù)據(jù)中，希望它學(xué)會(huì)疏忽它們。

OpenAI與微軟簽署了一項(xiàng)數(shù)十億美圓的協(xié)議，并宣布與全球管理咨詢(xún)公司貝恩結(jié)盟。貝恩方案在其客戶(hù)（包括可口可樂(lè)公司）的營(yíng)銷(xiāo)活動(dòng)中運(yùn)用OpenAI的生成式AI模型1[3]。在OpenAI之外，關(guān)于ChatGPT的熱議引發(fā)了全球大型言語(yǔ)模型的又一次熱潮，各地的公司和投資者紛繁參加。

短短三個(gè)月內(nèi)，這惹起了很大的關(guān)注。ChatGPT從何而來(lái)？OpenAI采取了哪些措施確保產(chǎn)品發(fā)布前做好準(zhǔn)備？他們接下來(lái)會(huì)走向哪里？

Jan Leike：實(shí)話(huà)說(shuō)，這讓我們有點(diǎn)手足無(wú)措。我們感到詫異，我們不斷在努力躊躇不前。

John Schulman：發(fā)布之后的幾天，我不斷在親密關(guān)注Twitter，那段時(shí)間推特上充滿(mǎn)著ChatGPT截圖。我原以為它會(huì)很契合人們的直覺(jué)，并會(huì)取得一定的關(guān)注，但我沒(méi)料到它會(huì)到達(dá)如此普遍的主流提高度。

Sandhini Agarwal：我以為我們都沒(méi)有料到人們會(huì)如此熱衷于運(yùn)用它。我們?nèi)绱藢?zhuān)注于這些模型，以致于有時(shí)遺忘了它們對(duì)外界來(lái)說(shuō)是多么驚人。

Liam Fedus：我們的確對(duì)它遭到的熱烈歡送感到詫異。之前有很屢次通用聊天機(jī)器人的嘗試，我曉得我們面臨的應(yīng)戰(zhàn)不小。但是，我們的私人測(cè)試讓我們置信，我們可能真的做出了一款人們喜歡的產(chǎn)品。

Jan Leike：我想更好地理解驅(qū)動(dòng)這一切的緣由——推進(jìn)其病毒式傳播的緣由。說(shuō)實(shí)話(huà)，我們不理解。我們不曉得。

團(tuán)隊(duì)的困惑局部源于ChatGPT內(nèi)部的大局部技術(shù)并不是新的。ChatGPT是GPT-3.5的一個(gè)優(yōu)化版本，而GPT-3.5是OpenAI在發(fā)布聊天機(jī)器人之前幾個(gè)月發(fā)布的大型言語(yǔ)模型家族。GPT-3.5自身是2020年呈現(xiàn)的GPT-3的更新版本1。OpenAI經(jīng)過(guò)將這些模型作為應(yīng)用程序編程接口（API）提供在其網(wǎng)站上，讓其他軟件開(kāi)發(fā)人員能夠輕松地將模型嵌入到他們本人的代碼中。2022年1月，OpenAI還發(fā)布了一種名為InstructGPT的GPT-3.5的優(yōu)化版本。但是這些先前的技術(shù)版本都沒(méi)有向公眾推行。

Liam Fedus表示，ChatGPT模型是從與InstructGPT相同的言語(yǔ)模型中微調(diào)而來(lái)的，他們運(yùn)用了相似的微調(diào)辦法。他們添加了一些對(duì)話(huà)數(shù)據(jù)并對(duì)鍛煉過(guò)程停止了調(diào)整，因而不希望將其過(guò)度宣傳為嚴(yán)重的根本進(jìn)步。事實(shí)證明，對(duì)話(huà)數(shù)據(jù)對(duì)ChatGPT產(chǎn)生了很大的積極影響。

John Schulman表示，雖然從規(guī)范基準(zhǔn)來(lái)評(píng)價(jià)這些模型的原始技術(shù)才能并沒(méi)有本質(zhì)性的差別，但ChatGPT更易于訪(fǎng)問(wèn)和運(yùn)用。

Jan Leike解釋說(shuō)，從某種意義上說(shuō)，ChatGPT能夠被了解為我們?cè)?jīng)有的AI系統(tǒng)的一個(gè)版本。它并不比以前的模型具有更強(qiáng)大的功用。在ChatGPT問(wèn)世前的一年里，相同的根本模型曾經(jīng)在API上可用。另一方面，他們使其更契合人們想要用它做的事情。它以對(duì)話(huà)的方式與您交流，易于在聊天界面中訪(fǎng)問(wèn)，努力提供協(xié)助。這是令人驚嘆的進(jìn)步，人們正在認(rèn)識(shí)到這一點(diǎn)。

John Schulman指出，ChatGPT更容易推斷出用戶(hù)的企圖，而且用戶(hù)能夠經(jīng)過(guò)重復(fù)對(duì)話(huà)來(lái)取得他們想要的內(nèi)容。

ChatGPT 的鍛煉方式與 InstructGPT 十分類(lèi)似，采用了一種稱(chēng)為基于人類(lèi)反應(yīng)的強(qiáng)化學(xué)習(xí)（RLHF）的技術(shù)。這是 ChatGPT 的機(jī)密武器。根本思緒是采用一個(gè)傾向于隨意輸出內(nèi)容的大型言語(yǔ)模型——在這種狀況下是 GPT-3.5——并經(jīng)過(guò)教它人類(lèi)用戶(hù)實(shí)踐更喜歡的回應(yīng)類(lèi)型來(lái)停止調(diào)優(yōu)。

Jan Leike：我們讓一大群人閱讀 ChatGPT 的提示和回應(yīng)，然后說(shuō)出哪個(gè)回應(yīng)比另一個(gè)回應(yīng)更可取。一切這些數(shù)據(jù)隨后兼并到一個(gè)鍛煉運(yùn)轉(zhuǎn)中。很多內(nèi)容與我們?cè)?InstructGPT 中做的事情相同。你希望它能提供協(xié)助，要真實(shí)，要無(wú)毒。然后還有一些特定于產(chǎn)生對(duì)話(huà)和成為助手的事情：比方，假如用戶(hù)的查詢(xún)不分明，它應(yīng)該提出后續(xù)問(wèn)題。它還應(yīng)該廓清本人是一個(gè) AI 系統(tǒng)。它不應(yīng)該假定本人沒(méi)有的身份，不應(yīng)該宣稱(chēng)具有它所沒(méi)有的才能，當(dāng)用戶(hù)請(qǐng)求它執(zhí)行不應(yīng)該執(zhí)行的任務(wù)時(shí)，它必需寫(xiě)出回絕信息。在這次培訓(xùn)中呈現(xiàn)的一句話(huà)是：“作為一個(gè)由 OpenAI 鍛煉的言語(yǔ)模型……”這并非是成心放進(jìn)去的，但它是人類(lèi)評(píng)價(jià)者高度評(píng)價(jià)的事物之一。

Sandhini Agarwal：是的，我以為這就是發(fā)作的事情。人類(lèi)評(píng)價(jià)者必需依據(jù)各種規(guī)范對(duì)模型停止排名，比方真實(shí)性。但是他們也開(kāi)端更喜歡他們以為是良好理論的事物，比方不偽裝是你不是的東西。

由于 ChatGPT 是運(yùn)用與 OpenAI 之前運(yùn)用的相同技術(shù)構(gòu)建的，因而在準(zhǔn)備將此模型發(fā)布給公眾時(shí)，團(tuán)隊(duì)并未采取任何不同的做法。他們以為之前模型的規(guī)范曾經(jīng)足夠了。

Sandhini Agarwal：在準(zhǔn)備發(fā)布時(shí)，我們并沒(méi)有將此模型視為一個(gè)全新的風(fēng)險(xiǎn)。GPT-3.5 曾經(jīng)在世界上存在，我們曉得它曾經(jīng)足夠平安。經(jīng)過(guò) ChatGPT 對(duì)人類(lèi)偏好的培訓(xùn)，模型自動(dòng)學(xué)會(huì)了回絕行為，回絕了很多懇求。

Jan Leike：我們的確為 ChatGPT 停止了一些額外的“紅隊(duì)”測(cè)試，OpenAI 的每個(gè)人都坐下來(lái)嘗試破解模型。我們還有外部團(tuán)隊(duì)做同樣的事情。我們還有一個(gè)早期訪(fǎng)問(wèn)方案，信任的用戶(hù)會(huì)提供反應(yīng)。

Sandhini Agarwal：我們的確發(fā)現(xiàn)它產(chǎn)生了一些不需求的輸出，但這些都是 GPT-3.5 也會(huì)產(chǎn)生的東西。因而在風(fēng)險(xiǎn)方面，作為一個(gè)研討預(yù)覽——由于這是它最初的目的——覺(jué)得還不錯(cuò)。

John Schulman：你不能等到你的系統(tǒng)白璧無(wú)瑕才發(fā)布。我們?cè)?jīng)對(duì)早期版本停止了幾個(gè)月的測(cè)試，測(cè)試人員對(duì)產(chǎn)品給予了積極的評(píng)價(jià)。我們最大的擔(dān)憂(yōu)是關(guān)于事實(shí)性的問(wèn)題，由于模型喜歡捏造事實(shí)。但 InstructGPT 和其他大型言語(yǔ)模型曾經(jīng)在那里了，所以我們以為，只需 ChatGPT 在事實(shí)性和其他平安問(wèn)題上優(yōu)于那些模型，它就應(yīng)該能夠運(yùn)用。在發(fā)布前，我們確認(rèn)了依據(jù)我們有限的評(píng)價(jià)，這些模型似乎比其他模型在事實(shí)性和平安性方面更強(qiáng)一些，所以我們決議繼續(xù)發(fā)布。

自 ChatGPT 發(fā)布以來(lái)，OpenAI 不斷在察看人們?nèi)绾芜\(yùn)用它，這是第一次看到一款大型言語(yǔ)模型在數(shù)千萬(wàn)可能試圖測(cè)試其極限和發(fā)現(xiàn)其缺陷的用戶(hù)手中如何表現(xiàn)。團(tuán)隊(duì)試圖關(guān)注 ChatGPT 產(chǎn)生的最具問(wèn)題性的例子——從關(guān)于神對(duì)強(qiáng)奸神父之愛(ài)的歌曲到竊取信譽(yù)卡號(hào)的歹意代碼——并用它們來(lái)約束模型的將來(lái)版本。

Sandhini Agarwal：我們有很多下一步要做的事情。我的確以為 ChatGPT 的病毒式傳播使我們曉得的很多問(wèn)題變得十分突出，并變得十分關(guān)鍵——這些都是我們希望盡快處理的問(wèn)題。比方，我們曉得模型依然存在很大的成見(jiàn)。是的，ChatGPT 很擅長(zhǎng)回絕不良懇求，但編寫(xiě)提示讓模型不回絕我們希望它回絕的內(nèi)容也相當(dāng)容易。

Liam Fedus：看到用戶(hù)多樣化和富有創(chuàng)意的應(yīng)用令人振奮，但我們一直專(zhuān)注于需求改良的范疇。我們以為經(jīng)過(guò)部署、獲取反應(yīng)和優(yōu)化的迭代過(guò)程，我們能夠消費(fèi)出最契合需求和最有才能的技術(shù)。隨著我們的技術(shù)不時(shí)開(kāi)展，新問(wèn)題不可防止地會(huì)呈現(xiàn)。

Sandhini Agarwal：發(fā)布后的幾周里，我們查看了一些人們發(fā)現(xiàn)的最糟糕的例子，這些都是人們?cè)诶硐胫锌吹降淖钤愀獾氖虑椤Ｎ覀儗?duì)這些例子停止了評(píng)價(jià)，討論了如何處理這些問(wèn)題。

Jan Leike：有時(shí)分是由于在 Twitter 上病毒式傳播的內(nèi)容，但我們也有一些人悄然地與我們獲得聯(lián)絡(luò)。

Sandhini Agarwal：我們發(fā)現(xiàn)的很多問(wèn)題都是越獄行為，這絕對(duì)是我們需求處理的問(wèn)題。但由于用戶(hù)必需嘗試這些復(fù)雜的辦法來(lái)讓模型說(shuō)出一些不好的東西，這并不是我們完整無(wú)視了的問(wèn)題，或者對(duì)我們來(lái)說(shuō)十分令人詫異的事情。但是，我們?nèi)缃裾诜e極處理這個(gè)問(wèn)題。當(dāng)我們發(fā)現(xiàn)越獄行為時(shí)，我們會(huì)將它們添加到我們的鍛煉和測(cè)試數(shù)據(jù)中。我們看到的一切數(shù)據(jù)都會(huì)輸入到將來(lái)的模型中。

Jan Leike：每次我們有了更好的模型，我們都希望將其投放進(jìn)來(lái)并停止測(cè)試。我們十分悲觀地以為，一些針對(duì)性的對(duì)立性鍛煉能夠大大改善越獄問(wèn)題。雖然不分明這些問(wèn)題能否會(huì)完整消逝，但我們以為我們能夠使越獄行為變得愈加艱難。再次強(qiáng)調(diào)，在發(fā)布之前，我們并不是不曉得越獄是可能的。我以為，在部署這些系統(tǒng)后，真正預(yù)測(cè)這些系統(tǒng)會(huì)呈現(xiàn)的平安問(wèn)題十分艱難。所以我們十分注重監(jiān)測(cè)人們運(yùn)用系統(tǒng)的目的，察看發(fā)作了什么，然后對(duì)此做出反響。這并不是說(shuō)我們不應(yīng)該在預(yù)見(jiàn)到平安問(wèn)題時(shí)主動(dòng)停止緩解。但的確，預(yù)見(jiàn)系統(tǒng)進(jìn)入理想世界時(shí)實(shí)踐發(fā)作的一切十分艱難。

1月份，微軟發(fā)布了名為 Bing Chat 的搜索聊天機(jī)器人，許多人猜想這是 OpenAI 尚未正式宣布的 GPT-4 的一個(gè)版本。（OpenAI 表示：“Bing 是由微軟特地為搜索定制的我們的下一代模型之一驅(qū)動(dòng)的。它分離了 ChatGPT 和 GPT-3.5 的技術(shù)進(jìn)步。”）技術(shù)巨頭們?yōu)榱司S護(hù)數(shù)十億美圓的名譽(yù)而運(yùn)用聊天機(jī)器人，這為擔(dān)任構(gòu)建底層模型的人們帶來(lái)了新的應(yīng)戰(zhàn)。

Sandhini Agarwal：如今的風(fēng)險(xiǎn)肯定比六個(gè)月前要高得多，但依然低于一年后可能的程度。很明顯，這些模型的運(yùn)用環(huán)境對(duì)它們的重要性十分大。就像 Google 和 Microsoft，即便是一件事實(shí)不清的事情，也由于它們被以為是搜索引擎而成為了一個(gè)大問(wèn)題。用于搜索等場(chǎng)景的大型言語(yǔ)模型所需的行為與僅僅是一個(gè)興趣聊天機(jī)器人的請(qǐng)求十分不同。我們需求弄分明如何在一切這些不同的用處之間找到均衡，為人們發(fā)明出在一系列場(chǎng)景中有用的東西，其中所需的行為可能真的有很大差異。這增加了更多的壓力。由于我們?nèi)缃駮缘?，我們正在?gòu)建這些模型，以便它們能夠變成產(chǎn)品。ChatGPT 如今是一個(gè)產(chǎn)品，由于我們有了 API。我們正在構(gòu)建這種通用技術(shù)，我們需求確保它在一切方面都能運(yùn)作良好。這是我們目前面臨的關(guān)鍵應(yīng)戰(zhàn)之一。

John Schulman：我低估了人們?cè)谔綔y(cè)和關(guān)懷 ChatGPT 政治方面的水平。在搜集鍛煉數(shù)據(jù)時(shí)，我們本能夠做出一些更好的決策，從而減輕這個(gè)問(wèn)題。我們?nèi)缃裾谔幚磉@個(gè)問(wèn)題。

Jan Leike：從我的角度來(lái)看，ChatGPT 失敗很多——還有很多事情要做。我們并沒(méi)有處理這些問(wèn)題。我們都必需十分分明地認(rèn)識(shí)到本人和他人的技術(shù)局限性。我的意義是，言語(yǔ)模型曾經(jīng)存在了一段時(shí)間，但如今依然是初期階段。我們曉得它們存在的一切問(wèn)題。我以為我們只需求十分坦率空中對(duì)，管理希冀，并明白這不是一個(gè)廢品。

總結(jié)

本文引見(jiàn)了 ChatGPT 是如何由 OpenAI 團(tuán)隊(duì)開(kāi)發(fā)出來(lái)的。ChatGPT 是一個(gè)大型的言語(yǔ)模型，它能夠依據(jù)用戶(hù)的輸入生成自然言語(yǔ)響應(yīng)。自 ChatGPT 推出以來(lái)，OpenAI 不斷在關(guān)注用戶(hù)的運(yùn)用狀況，以理解大量言語(yǔ)模型在成千上萬(wàn)的用戶(hù)手中的表現(xiàn)。

文章中提到，開(kāi)發(fā)團(tuán)隊(duì)在構(gòu)建 ChatGPT 時(shí)遇到了許多應(yīng)戰(zhàn)，例如如何讓模型更好天文解言語(yǔ)、如何在處置大量數(shù)據(jù)時(shí)堅(jiān)持穩(wěn)定性等。他們采取了一些創(chuàng)新的辦法來(lái)處理這些問(wèn)題，例如運(yùn)用無(wú)監(jiān)視的學(xué)習(xí)辦法和對(duì)立性鍛煉。

此外，文章還提到了一些關(guān)于言語(yǔ)模型將來(lái)開(kāi)展的見(jiàn)地，包括模型的加強(qiáng)、模型的可解釋性以及模型與人類(lèi)言語(yǔ)才能之間的關(guān)系。

標(biāo)簽：C++設(shè)計(jì)模式