看動(dòng)畫(huà)輕松學(xué)習(xí)23種C++設(shè)計(jì)模式-滟滟隨波千萬(wàn)里,何處春江無(wú)月明
從制造者那里理解到ChatGPT是如何樹(shù)立的內(nèi)部故事
看動(dòng)畫(huà)輕松學(xué)習(xí)23種C++設(shè)計(jì)模式
download:https://www.zxit666.com/5634/
2022年11月底,OpenAI在沒(méi)有任何宣傳的狀況下發(fā)布了ChatGPT,這家總部位于舊金山的人工智能公司對(duì)此并無(wú)太多希冀。當(dāng)然,OpenAI內(nèi)部的人也沒(méi)有準(zhǔn)備好迎接病毒式的超級(jí)搶手。自那時(shí)以來(lái),該公司不斷在努力躊躇不前,并努力應(yīng)用這一勝利。
OpenAI的政策工作者Sandhini Agarwal表示,公司內(nèi)部將其視為“研討預(yù)覽”,這是對(duì)兩年前技術(shù)的愈加成熟的版本,更重要的是,它試圖經(jīng)過(guò)搜集公眾的反應(yīng)來(lái)消弭其中的一些缺陷。在OpenAI工作的科學(xué)家Liam Fedus表示:“我們不想把它吹噓成一個(gè)嚴(yán)重的根本停頓?!?/p>
為了理解這個(gè)聊天機(jī)器人背后的內(nèi)情故事——它是如何制造的,自發(fā)布以來(lái)OpenAI如何更新它,以及其制造者對(duì)其勝利的見(jiàn)地——我與四位協(xié)助構(gòu)建這個(gè)成為有史以來(lái)最受歡送的互聯(lián)網(wǎng)應(yīng)用之一的人交談。除了Agarwal和Fedus,我還與OpenAI的結(jié)合開(kāi)創(chuàng)人John Schulman和OpenAI對(duì)齊團(tuán)隊(duì)的擔(dān)任人Jan Leike交談,該團(tuán)隊(duì)努力于處理讓AI依照用戶(hù)的意愿去做事(而不是別的)的問(wèn)題。
我得出的結(jié)論是,OpenAI對(duì)其研討預(yù)覽的勝利依然感到困惑,但已抓住時(shí)機(jī)推進(jìn)這項(xiàng)技術(shù)的開(kāi)展,察看數(shù)百萬(wàn)人如何運(yùn)用它,并努力處理呈現(xiàn)的最嚴(yán)重問(wèn)題。
自11月以來(lái),OpenAI曾經(jīng)屢次更新了ChatGPT。研討人員正在運(yùn)用一種名為對(duì)立性鍛煉的技術(shù)來(lái)阻止ChatGPT讓用戶(hù)誘導(dǎo)它表現(xiàn)惡劣(稱(chēng)為越獄)。這項(xiàng)工作讓多個(gè)聊天機(jī)器人相互對(duì)立:一個(gè)聊天機(jī)器人充任對(duì)手并經(jīng)過(guò)生成文本攻擊另一個(gè)聊天機(jī)器人,迫使其打破通常的約束并產(chǎn)生不需求的回應(yīng)。勝利的攻擊將被添加到ChatGPT的鍛煉數(shù)據(jù)中,希望它學(xué)會(huì)疏忽它們。
OpenAI與微軟簽署了一項(xiàng)數(shù)十億美圓的協(xié)議,并宣布與全球管理咨詢(xún)公司貝恩結(jié)盟。貝恩方案在其客戶(hù)(包括可口可樂(lè)公司)的營(yíng)銷(xiāo)活動(dòng)中運(yùn)用OpenAI的生成式AI模型1[3]。在OpenAI之外,關(guān)于ChatGPT的熱議引發(fā)了全球大型言語(yǔ)模型的又一次熱潮,各地的公司和投資者紛繁參加。
短短三個(gè)月內(nèi),這惹起了很大的關(guān)注。ChatGPT從何而來(lái)?OpenAI采取了哪些措施確保產(chǎn)品發(fā)布前做好準(zhǔn)備?他們接下來(lái)會(huì)走向哪里?
Jan Leike:實(shí)話(huà)說(shuō),這讓我們有點(diǎn)手足無(wú)措。我們感到詫異,我們不斷在努力躊躇不前。
John Schulman:發(fā)布之后的幾天,我不斷在親密關(guān)注Twitter,那段時(shí)間推特上充滿(mǎn)著ChatGPT截圖。我原以為它會(huì)很契合人們的直覺(jué),并會(huì)取得一定的關(guān)注,但我沒(méi)料到它會(huì)到達(dá)如此普遍的主流提高度。
Sandhini Agarwal:我以為我們都沒(méi)有料到人們會(huì)如此熱衷于運(yùn)用它。我們?nèi)绱藢?zhuān)注于這些模型,以致于有時(shí)遺忘了它們對(duì)外界來(lái)說(shuō)是多么驚人。
Liam Fedus:我們的確對(duì)它遭到的熱烈歡送感到詫異。之前有很屢次通用聊天機(jī)器人的嘗試,我曉得我們面臨的應(yīng)戰(zhàn)不小。但是,我們的私人測(cè)試讓我們置信,我們可能真的做出了一款人們喜歡的產(chǎn)品。
Jan Leike:我想更好地理解驅(qū)動(dòng)這一切的緣由——推進(jìn)其病毒式傳播的緣由。說(shuō)實(shí)話(huà),我們不理解。我們不曉得。
團(tuán)隊(duì)的困惑局部源于ChatGPT內(nèi)部的大局部技術(shù)并不是新的。ChatGPT是GPT-3.5的一個(gè)優(yōu)化版本,而GPT-3.5是OpenAI在發(fā)布聊天機(jī)器人之前幾個(gè)月發(fā)布的大型言語(yǔ)模型家族。GPT-3.5自身是2020年呈現(xiàn)的GPT-3的更新版本1。OpenAI經(jīng)過(guò)將這些模型作為應(yīng)用程序編程接口(API)提供在其網(wǎng)站上,讓其他軟件開(kāi)發(fā)人員能夠輕松地將模型嵌入到他們本人的代碼中。2022年1月,OpenAI還發(fā)布了一種名為InstructGPT的GPT-3.5的優(yōu)化版本。但是這些先前的技術(shù)版本都沒(méi)有向公眾推行。
Liam Fedus表示,ChatGPT模型是從與InstructGPT相同的言語(yǔ)模型中微調(diào)而來(lái)的,他們運(yùn)用了相似的微調(diào)辦法。他們添加了一些對(duì)話(huà)數(shù)據(jù)并對(duì)鍛煉過(guò)程停止了調(diào)整,因而不希望將其過(guò)度宣傳為嚴(yán)重的根本進(jìn)步。事實(shí)證明,對(duì)話(huà)數(shù)據(jù)對(duì)ChatGPT產(chǎn)生了很大的積極影響。
John Schulman表示,雖然從規(guī)范基準(zhǔn)來(lái)評(píng)價(jià)這些模型的原始技術(shù)才能并沒(méi)有本質(zhì)性的差別,但ChatGPT更易于訪(fǎng)問(wèn)和運(yùn)用。
Jan Leike解釋說(shuō),從某種意義上說(shuō),ChatGPT能夠被了解為我們?cè)?jīng)有的AI系統(tǒng)的一個(gè)版本。它并不比以前的模型具有更強(qiáng)大的功用。在ChatGPT問(wèn)世前的一年里,相同的根本模型曾經(jīng)在API上可用。另一方面,他們使其更契合人們想要用它做的事情。它以對(duì)話(huà)的方式與您交流,易于在聊天界面中訪(fǎng)問(wèn),努力提供協(xié)助。這是令人驚嘆的進(jìn)步,人們正在認(rèn)識(shí)到這一點(diǎn)。
John Schulman指出,ChatGPT更容易推斷出用戶(hù)的企圖,而且用戶(hù)能夠經(jīng)過(guò)重復(fù)對(duì)話(huà)來(lái)取得他們想要的內(nèi)容。
ChatGPT 的鍛煉方式與 InstructGPT 十分類(lèi)似,采用了一種稱(chēng)為基于人類(lèi)反應(yīng)的強(qiáng)化學(xué)習(xí)(RLHF)的技術(shù)。這是 ChatGPT 的機(jī)密武器。根本思緒是采用一個(gè)傾向于隨意輸出內(nèi)容的大型言語(yǔ)模型——在這種狀況下是 GPT-3.5——并經(jīng)過(guò)教它人類(lèi)用戶(hù)實(shí)踐更喜歡的回應(yīng)類(lèi)型來(lái)停止調(diào)優(yōu)。
Jan Leike:我們讓一大群人閱讀 ChatGPT 的提示和回應(yīng),然后說(shuō)出哪個(gè)回應(yīng)比另一個(gè)回應(yīng)更可取。一切這些數(shù)據(jù)隨后兼并到一個(gè)鍛煉運(yùn)轉(zhuǎn)中。很多內(nèi)容與我們?cè)?InstructGPT 中做的事情相同。你希望它能提供協(xié)助,要真實(shí),要無(wú)毒。然后還有一些特定于產(chǎn)生對(duì)話(huà)和成為助手的事情:比方,假如用戶(hù)的查詢(xún)不分明,它應(yīng)該提出后續(xù)問(wèn)題。它還應(yīng)該廓清本人是一個(gè) AI 系統(tǒng)。它不應(yīng)該假定本人沒(méi)有的身份,不應(yīng)該宣稱(chēng)具有它所沒(méi)有的才能,當(dāng)用戶(hù)請(qǐng)求它執(zhí)行不應(yīng)該執(zhí)行的任務(wù)時(shí),它必需寫(xiě)出回絕信息。在這次培訓(xùn)中呈現(xiàn)的一句話(huà)是:“作為一個(gè)由 OpenAI 鍛煉的言語(yǔ)模型……”這并非是成心放進(jìn)去的,但它是人類(lèi)評(píng)價(jià)者高度評(píng)價(jià)的事物之一。
Sandhini Agarwal:是的,我以為這就是發(fā)作的事情。人類(lèi)評(píng)價(jià)者必需依據(jù)各種規(guī)范對(duì)模型停止排名,比方真實(shí)性。但是他們也開(kāi)端更喜歡他們以為是良好理論的事物,比方不偽裝是你不是的東西。
由于 ChatGPT 是運(yùn)用與 OpenAI 之前運(yùn)用的相同技術(shù)構(gòu)建的,因而在準(zhǔn)備將此模型發(fā)布給公眾時(shí),團(tuán)隊(duì)并未采取任何不同的做法。他們以為之前模型的規(guī)范曾經(jīng)足夠了。
Sandhini Agarwal:在準(zhǔn)備發(fā)布時(shí),我們并沒(méi)有將此模型視為一個(gè)全新的風(fēng)險(xiǎn)。GPT-3.5 曾經(jīng)在世界上存在,我們曉得它曾經(jīng)足夠平安。經(jīng)過(guò) ChatGPT 對(duì)人類(lèi)偏好的培訓(xùn),模型自動(dòng)學(xué)會(huì)了回絕行為,回絕了很多懇求。
Jan Leike:我們的確為 ChatGPT 停止了一些額外的“紅隊(duì)”測(cè)試,OpenAI 的每個(gè)人都坐下來(lái)嘗試破解模型。我們還有外部團(tuán)隊(duì)做同樣的事情。我們還有一個(gè)早期訪(fǎng)問(wèn)方案,信任的用戶(hù)會(huì)提供反應(yīng)。
Sandhini Agarwal:我們的確發(fā)現(xiàn)它產(chǎn)生了一些不需求的輸出,但這些都是 GPT-3.5 也會(huì)產(chǎn)生的東西。因而在風(fēng)險(xiǎn)方面,作為一個(gè)研討預(yù)覽——由于這是它最初的目的——覺(jué)得還不錯(cuò)。
John Schulman:你不能等到你的系統(tǒng)白璧無(wú)瑕才發(fā)布。我們?cè)?jīng)對(duì)早期版本停止了幾個(gè)月的測(cè)試,測(cè)試人員對(duì)產(chǎn)品給予了積極的評(píng)價(jià)。我們最大的擔(dān)憂(yōu)是關(guān)于事實(shí)性的問(wèn)題,由于模型喜歡捏造事實(shí)。但 InstructGPT 和其他大型言語(yǔ)模型曾經(jīng)在那里了,所以我們以為,只需 ChatGPT 在事實(shí)性和其他平安問(wèn)題上優(yōu)于那些模型,它就應(yīng)該能夠運(yùn)用。在發(fā)布前,我們確認(rèn)了依據(jù)我們有限的評(píng)價(jià),這些模型似乎比其他模型在事實(shí)性和平安性方面更強(qiáng)一些,所以我們決議繼續(xù)發(fā)布。
自 ChatGPT 發(fā)布以來(lái),OpenAI 不斷在察看人們?nèi)绾芜\(yùn)用它,這是第一次看到一款大型言語(yǔ)模型在數(shù)千萬(wàn)可能試圖測(cè)試其極限和發(fā)現(xiàn)其缺陷的用戶(hù)手中如何表現(xiàn)。團(tuán)隊(duì)試圖關(guān)注 ChatGPT 產(chǎn)生的最具問(wèn)題性的例子——從關(guān)于神對(duì)強(qiáng)奸神父之愛(ài)的歌曲到竊取信譽(yù)卡號(hào)的歹意代碼——并用它們來(lái)約束模型的將來(lái)版本。
Sandhini Agarwal:我們有很多下一步要做的事情。我的確以為 ChatGPT 的病毒式傳播使我們曉得的很多問(wèn)題變得十分突出,并變得十分關(guān)鍵——這些都是我們希望盡快處理的問(wèn)題。比方,我們曉得模型依然存在很大的成見(jiàn)。是的,ChatGPT 很擅長(zhǎng)回絕不良懇求,但編寫(xiě)提示讓模型不回絕我們希望它回絕的內(nèi)容也相當(dāng)容易。
Liam Fedus:看到用戶(hù)多樣化和富有創(chuàng)意的應(yīng)用令人振奮,但我們一直專(zhuān)注于需求改良的范疇。我們以為經(jīng)過(guò)部署、獲取反應(yīng)和優(yōu)化的迭代過(guò)程,我們能夠消費(fèi)出最契合需求和最有才能的技術(shù)。隨著我們的技術(shù)不時(shí)開(kāi)展,新問(wèn)題不可防止地會(huì)呈現(xiàn)。
Sandhini Agarwal:發(fā)布后的幾周里,我們查看了一些人們發(fā)現(xiàn)的最糟糕的例子,這些都是人們?cè)诶硐胫锌吹降淖钤愀獾氖虑椤N覀儗?duì)這些例子停止了評(píng)價(jià),討論了如何處理這些問(wèn)題。
Jan Leike:有時(shí)分是由于在 Twitter 上病毒式傳播的內(nèi)容,但我們也有一些人悄然地與我們獲得聯(lián)絡(luò)。
Sandhini Agarwal:我們發(fā)現(xiàn)的很多問(wèn)題都是越獄行為,這絕對(duì)是我們需求處理的問(wèn)題。但由于用戶(hù)必需嘗試這些復(fù)雜的辦法來(lái)讓模型說(shuō)出一些不好的東西,這并不是我們完整無(wú)視了的問(wèn)題,或者對(duì)我們來(lái)說(shuō)十分令人詫異的事情。但是,我們?nèi)缃裾诜e極處理這個(gè)問(wèn)題。當(dāng)我們發(fā)現(xiàn)越獄行為時(shí),我們會(huì)將它們添加到我們的鍛煉和測(cè)試數(shù)據(jù)中。我們看到的一切數(shù)據(jù)都會(huì)輸入到將來(lái)的模型中。
Jan Leike:每次我們有了更好的模型,我們都希望將其投放進(jìn)來(lái)并停止測(cè)試。我們十分悲觀地以為,一些針對(duì)性的對(duì)立性鍛煉能夠大大改善越獄問(wèn)題。雖然不分明這些問(wèn)題能否會(huì)完整消逝,但我們以為我們能夠使越獄行為變得愈加艱難。再次強(qiáng)調(diào),在發(fā)布之前,我們并不是不曉得越獄是可能的。我以為,在部署這些系統(tǒng)后,真正預(yù)測(cè)這些系統(tǒng)會(huì)呈現(xiàn)的平安問(wèn)題十分艱難。所以我們十分注重監(jiān)測(cè)人們運(yùn)用系統(tǒng)的目的,察看發(fā)作了什么,然后對(duì)此做出反響。這并不是說(shuō)我們不應(yīng)該在預(yù)見(jiàn)到平安問(wèn)題時(shí)主動(dòng)停止緩解。但的確,預(yù)見(jiàn)系統(tǒng)進(jìn)入理想世界時(shí)實(shí)踐發(fā)作的一切十分艱難。
1月份,微軟發(fā)布了名為 Bing Chat 的搜索聊天機(jī)器人,許多人猜想這是 OpenAI 尚未正式宣布的 GPT-4 的一個(gè)版本。(OpenAI 表示:“Bing 是由微軟特地為搜索定制的我們的下一代模型之一驅(qū)動(dòng)的。它分離了 ChatGPT 和 GPT-3.5 的技術(shù)進(jìn)步。”)技術(shù)巨頭們?yōu)榱司S護(hù)數(shù)十億美圓的名譽(yù)而運(yùn)用聊天機(jī)器人,這為擔(dān)任構(gòu)建底層模型的人們帶來(lái)了新的應(yīng)戰(zhàn)。
Sandhini Agarwal:如今的風(fēng)險(xiǎn)肯定比六個(gè)月前要高得多,但依然低于一年后可能的程度。很明顯,這些模型的運(yùn)用環(huán)境對(duì)它們的重要性十分大。就像 Google 和 Microsoft,即便是一件事實(shí)不清的事情,也由于它們被以為是搜索引擎而成為了一個(gè)大問(wèn)題。用于搜索等場(chǎng)景的大型言語(yǔ)模型所需的行為與僅僅是一個(gè)興趣聊天機(jī)器人的請(qǐng)求十分不同。我們需求弄分明如何在一切這些不同的用處之間找到均衡,為人們發(fā)明出在一系列場(chǎng)景中有用的東西,其中所需的行為可能真的有很大差異。這增加了更多的壓力。由于我們?nèi)缃駮缘?,我們正在?gòu)建這些模型,以便它們能夠變成產(chǎn)品。ChatGPT 如今是一個(gè)產(chǎn)品,由于我們有了 API。我們正在構(gòu)建這種通用技術(shù),我們需求確保它在一切方面都能運(yùn)作良好。這是我們目前面臨的關(guān)鍵應(yīng)戰(zhàn)之一。
John Schulman:我低估了人們?cè)谔綔y(cè)和關(guān)懷 ChatGPT 政治方面的水平。在搜集鍛煉數(shù)據(jù)時(shí),我們本能夠做出一些更好的決策,從而減輕這個(gè)問(wèn)題。我們?nèi)缃裾谔幚磉@個(gè)問(wèn)題。
Jan Leike:從我的角度來(lái)看,ChatGPT 失敗很多——還有很多事情要做。我們并沒(méi)有處理這些問(wèn)題。我們都必需十分分明地認(rèn)識(shí)到本人和他人的技術(shù)局限性。我的意義是,言語(yǔ)模型曾經(jīng)存在了一段時(shí)間,但如今依然是初期階段。我們曉得它們存在的一切問(wèn)題。我以為我們只需求十分坦率空中對(duì),管理希冀,并明白這不是一個(gè)廢品。
總結(jié)
本文引見(jiàn)了 ChatGPT 是如何由 OpenAI 團(tuán)隊(duì)開(kāi)發(fā)出來(lái)的。ChatGPT 是一個(gè)大型的言語(yǔ)模型,它能夠依據(jù)用戶(hù)的輸入生成自然言語(yǔ)響應(yīng)。自 ChatGPT 推出以來(lái),OpenAI 不斷在關(guān)注用戶(hù)的運(yùn)用狀況,以理解大量言語(yǔ)模型在成千上萬(wàn)的用戶(hù)手中的表現(xiàn)。
文章中提到,開(kāi)發(fā)團(tuán)隊(duì)在構(gòu)建 ChatGPT 時(shí)遇到了許多應(yīng)戰(zhàn),例如如何讓模型更好天文解言語(yǔ)、如何在處置大量數(shù)據(jù)時(shí)堅(jiān)持穩(wěn)定性等。他們采取了一些創(chuàng)新的辦法來(lái)處理這些問(wèn)題,例如運(yùn)用無(wú)監(jiān)視的學(xué)習(xí)辦法和對(duì)立性鍛煉。
此外,文章還提到了一些關(guān)于言語(yǔ)模型將來(lái)開(kāi)展的見(jiàn)地,包括模型的加強(qiáng)、模型的可解釋性以及模型與人類(lèi)言語(yǔ)才能之間的關(guān)系。