四位OpenAI成員的訪談:ChatGPT幕后的故事 | 水木視界iss.43


2022年11月底,總部位于舊金山的人工智能公司OpenAI默默地推出了ChatGPT。該公司并沒有預(yù)料到該產(chǎn)品獲得的爆紅效應(yīng)。自那時以來,OpenAI一直在努力適應(yīng)這一變化,并從中獲利。
OpenAI的政策專家Sandhini Agarwal表示,該產(chǎn)品被視為“研究預(yù)覽版”,是未來兩年技術(shù)的先導(dǎo),并通過收集公眾反饋來解決一些缺陷。OpenAI的科學(xué)家Liam Fedus參與了ChatGPT的開發(fā),他表示:“我們不想把它過分包裝成一個重大的基礎(chǔ)性進展。”
?
為了了解ChatGPT背后的故事,包括它的制作過程、發(fā)布以來的更新,以及開發(fā)人員對其成功的感受,作者采訪了四位OpenAI的成員。除了Sandhini Agarwal和Liam Fedus外,還有OpenAI的聯(lián)合創(chuàng)始人John Schulman和OpenAI調(diào)整團隊的負(fù)責(zé)人Jan Leike。該團隊的目標(biāo)是解決如何使AI能夠滿足用戶的需求,而不是制造更多問題。
Copyright ??MIT Tech Review?Will Douglas Heaven
盡管OpenAI對ChatGPT的成功感到困惑,但他們正積極地調(diào)整戰(zhàn)略,并觀察著數(shù)百萬人如何使用它,從而在出現(xiàn)嚴(yán)重的問題時嘗試修復(fù)它們。自去年11月以來,OpenAI已經(jīng)多次更新了ChatGPT,以阻止用戶誘導(dǎo)ChatGPT生成不適宜內(nèi)容(即越獄),OpenAI的研究人員正在使用一種名為“對抗訓(xùn)練”的技術(shù),這項工作會將多個聊天機器人匹配并相互對抗。
除此之外,OpenAI與微軟簽訂了一項數(shù)十億美元的協(xié)議,并與全球管理咨詢公司貝恩(Bain)合作,在其客戶的營銷活動中使用OpenAI的生成性AI模型,包括可口可樂。ChatGPT的熱鬧引發(fā)了關(guān)于大型語言模型的淘金熱,全球各地的公司和投資者都加入了這個行動。
雖然ChatGPT的出現(xiàn)只有三個月時間,但已經(jīng)引起了很多關(guān)注。它的來龍去脈、OpenAI采取了哪些措施以確保它準(zhǔn)備好正式發(fā)布,以及該企業(yè)接下來的計劃等等...這些問題都備受關(guān)注。
以下為采訪內(nèi)容

Jan Leike:?說實話,最近發(fā)生的一切給我們帶來了太多的壓力。我們?nèi)蕴幱谡痼@之中,也一直在試圖跟上事態(tài)的發(fā)展。
?
John Schulman:?在ChatGPT發(fā)布后的幾天里,我無時無刻不在刷推特,關(guān)于 ChatGPT 的截圖填滿了我的推特動態(tài)。我知道它會很受用戶的歡迎,并且會吸引到大批的關(guān)注,但我并沒有預(yù)料到它會如此火爆。
?
Sandhini Agarwal:?我們所有人都驚訝于它的用戶數(shù)量。在發(fā)布前,我們對這些模型做了很多工作,有時候我們會忘記這些模型對于外界來說是多么超前。
?
Liam Fedus:?我們當(dāng)然會感到震驚。在此之前,很多企業(yè)都嘗試過制作通用聊天機器人,這個領(lǐng)域并不算成熟。然而,我們的內(nèi)部測試讓我們有信心能夠制作出一款人們喜歡的產(chǎn)品。
?
Jan Leike:?我很好奇的是,是什么推動了這些 - 是什么在推動著ChatGPT的傳播。老實說,我們不理解,我們不知道。
研發(fā)團隊的困惑在于,ChatGPT所使用的大部分技術(shù)并不是全新的。實際上,ChatGPT是GPT-3.5的精細(xì)調(diào)整版本,而GPT-3.5是OpenAI在發(fā)布聊天機器人之前數(shù)月發(fā)布的一系列大型語言模型的更新版本。GPT-3.5本身是GPT-3的更新版本,于2020年問世。
盡管這些技術(shù)并不是全新的,但OpenAI在其網(wǎng)站上提供這些模型作為API,這使得其他軟件開發(fā)人員可以輕松地將模型插入其自己的代碼中。OpenAI還在2022年1月發(fā)布了GPT-3.5的先前精細(xì)調(diào)整版本,稱為InstructGPT。然而,這些以前版本的技術(shù)從未向公眾推廣。
Liam Fedus:?ChatGPT模型是從與InstructGPT相同的語言模型微調(diào)而來。我們使用了類似的微調(diào)方法,但是我們也添加了一些對話數(shù)據(jù)并微調(diào)了訓(xùn)練過程。因此,我們不想過分宣傳它是一項重大的基礎(chǔ)性進展。然而,結(jié)果證明,對話數(shù)據(jù)對ChatGPT的性能有很大的積極影響。
John Schulman:?根據(jù)標(biāo)準(zhǔn)基準(zhǔn)測試評估,這些模型的原始技術(shù)能力實際上并沒有實質(zhì)性的差異。然而,相比之下,ChatGPT更具可訪問性和可用性。
Jan Leike:?在某種意義上,用戶可以將ChatGPT理解為一個受過良好教育的AI系統(tǒng)。在ChatGPT發(fā)布之前,它的基本模型已經(jīng)在許多接口上開放近一年了。在另一方面,我們讓它更符合用戶對它的期望。它會與用戶對話,易于在聊天界面中訪問,試圖提供幫助。
John Schulman:?它更容易推斷出用戶的意圖。用戶可以通過多次交流來獲得他們想要的對話。

ChatGPT的訓(xùn)練方式與InstructGPT非常相似,它們都使用了一種被稱為人類反饋強化學(xué)習(xí)(RLHF)的技術(shù),即通過強調(diào)人類用戶實際喜歡的內(nèi)容來微調(diào)它們。
Jan Leike:?我們讓一大群用戶閱讀ChatGPT的提示和不同回應(yīng),并讓他們告知哪個回應(yīng)更可取。然后我們會將所有的反饋數(shù)據(jù)合并到一個訓(xùn)練中。這在很大程度上與我們使用InstructGPT所做的事情類似。用戶們希望它有幫助,誠實,無害。例如:如果用戶的查詢不清楚,它應(yīng)該詢問后續(xù)問題。它還應(yīng)該澄清自己是一個AI系統(tǒng),而不應(yīng)該假裝自己有某些身份和能力:當(dāng)用戶要求它完成違背道德的任務(wù)時,它必須明確拒絕。其中的一條拒絕語句是“作為由OpenAI訓(xùn)練的語言模型...”,這句話并沒有明確地被寫入ChatGPT的邏輯中,而是很多人類評分者共同訓(xùn)練的結(jié)果。
Sandhini Agarwal:?是的,人類評分者必須根據(jù)各種標(biāo)準(zhǔn)對模型進行排名,例如真實性。但他們也認(rèn)為避免對ChatGPT賦予身份是一個好的習(xí)慣。
因為ChatGPT使用了OpenAI曾用過的相似技術(shù),在向公眾發(fā)布模型的時候,研究團隊并沒有做過多的限制。他們認(rèn)為,之前模型設(shè)定的標(biāo)準(zhǔn)已經(jīng)足夠了。
Sandhini Agarwal:?在發(fā)布ChatGPT時,我們并不認(rèn)為它具備極高的風(fēng)險性:此前的GPT-3.5已經(jīng)足夠安全,此外,通過ChatGPT對人類喜好的訓(xùn)練,模型學(xué)會了拒絕行為,它們能夠拒絕許多不適宜的請求。
Jan Leike:?我們確實對ChatGPT進行了一些額外的“紅隊測試”,所有OpenAI的員工嘗試過打破這個模型。我們還邀請一些外部團隊做了同樣的事情。另外,我們還有一個信任用戶的早期訪問計劃,他們提供了寶貴的反饋意見。
Sandhini Agarwal:?在測試階段,我們確實發(fā)現(xiàn)它生成了某些不需要的輸出,但它們都是GPT-3.5也會生成的內(nèi)容。因此,在風(fēng)險方面,作為一個研究預(yù)覽版本——這是ChatGPT的最初目的——它讓我感覺很好。
John Schulman:?你不能等到系統(tǒng)完美無缺之后才發(fā)布它。我們對早期版本測試了數(shù)個月,測試者對產(chǎn)品的總體印象是積極的。我們最大的擔(dān)憂是事實性,因為該模型喜歡捏造不存在的事情。但是,InstructGPT和其他大型語言模型已經(jīng)進入了公眾視野。因此,我們認(rèn)為只要ChatGPT在事實性和其他安全問題方面比那些模型更好,就可以發(fā)布了。在發(fā)布之前,根據(jù)我們有限的評估,我們確認(rèn)該模型似乎比其他模型更加真實和安全。
自ChatGPT發(fā)布以來,OpenAI一直在觀察人們?nèi)绾问褂盟?,這是他們首次看到了一個大型語言模型在數(shù)千萬用戶手中的表現(xiàn),這些用戶可能會試圖測試其極限并找出其缺陷。團隊試圖抓住ChatGPT可能產(chǎn)生的最棘手的例子,從關(guān)于“上帝愛戀童神父的歌曲”到“竊取信用卡號碼的惡意軟件代碼”,并利用它們來限制模型的未來版本。
?
Sandhini Agarwal:?我們還有很多工作要做。ChatGPT的爆紅使許多問題凸顯出來,并成為關(guān)鍵問題,而我們希望盡快解決這些問題。比如,我們知道這個模型仍然存在偏見:ChatGPT很擅長拒絕不好的請求,但用戶能夠編寫提示,進而規(guī)避它的拒絕邏輯。
Liam Fedus:?能夠觀察到用戶使用多樣化和有創(chuàng)意的應(yīng)用是令人興奮的,但我們始終專注于需要改進的領(lǐng)域。通過迭代過程,部署、獲取反饋并進行優(yōu)化,我們可以生產(chǎn)出最符合用戶期望的技術(shù)。隨著技術(shù)的發(fā)展,新問題不可避免地會出現(xiàn)。
Sandhini Agarwal:?在發(fā)布后的幾周里,我們看了一些人們發(fā)現(xiàn)的可怕交談案例。我們評估了每一個案例,并討論了如何修復(fù)它們。
Jan Leike:?大部分時候,那些案例會在Twitter上瘋傳,但也有一些人會私下聯(lián)系我們。
Sandhini Agarwal:?我們發(fā)現(xiàn)不少用戶再利用某些漏洞去突破ChatGPT的道德限制(即越獄)。對此,我們并不感到驚訝,這是我們正在積極解決的問題。當(dāng)我們發(fā)現(xiàn)一些不適宜對話數(shù)據(jù)時,就會將這些對話添加到我們的訓(xùn)練和測試數(shù)據(jù)中。我們看到的所有數(shù)據(jù)都會對未來的模型產(chǎn)生影響。
Jan Leike:?每次我們有一個更好的模型時,我們都希望將其發(fā)布并測試。我們非常樂觀地認(rèn)為,一些有針對性的對抗性訓(xùn)練可以大大改善越獄的情況。目前,我們不清楚這些問題是否會完全消失,但我們確定越獄會變得更加困難。這并不意味著在發(fā)布之前我們不知道越獄的可能性。我認(rèn)為,一旦用戶在本地部署了這些系統(tǒng),真正的安全問題很難預(yù)測。因此,我們非常重視監(jiān)控人們使用系統(tǒng)的方式,觀察會發(fā)生什么,然后對此做出反應(yīng)。當(dāng)一個系統(tǒng)進入真實世界時,很難預(yù)見到所有實際發(fā)生的事情。

今年1月,微軟推出了Bing Chat,一款搜索聊天機器人,許多人認(rèn)為它是OpenAI尚未官方發(fā)布的GPT-4版本。(OpenAI表示:“Bing由我們的下一代模型之一提供支持,Microsoft專門為搜索進行了定制。它融合了ChatGPT和GPT-3.5的先進技術(shù)?!保┛萍季揞^將聊天機器人的應(yīng)用視為他們的下一個挑戰(zhàn)。
?
Sandhini Agarwal:?顯然,對于科技巨頭來說,這些模型的上下文使用非常重要。像谷歌和微軟這樣的公司,即使有一件事情不屬實,也會成為一個很大的問題,因為它們是搜索引擎。搜索引擎與聊天機器人所需的行為模式非常不同。我們找出在所有這些不同的用途之間平衡的方法,從而創(chuàng)建出對人們在各種情境下都有用的東西,其中所需的行為可能會有很大的變化。這增加了更多的壓力。ChatGPT只是一個實驗性的產(chǎn)品,我們需要確保它在所有方面都能很好地工作。這是我們現(xiàn)在面臨的主要挑戰(zhàn)之一。
John Schulman:?我低估了人們對ChatGPT政治問題的探究和關(guān)注程度。也許我們能優(yōu)化收集訓(xùn)練數(shù)據(jù)的過程,我們正在努力解決這個問題。
Jan Leike:?從我的角度來看,ChatGPT失敗了很多,而我們還有很多事情要做,很多問題尚未被解決。我們所有人都必須認(rèn)識到技術(shù)的局限性,這一點對我們自己和他人都是如此。我的意思是,語言模型已經(jīng)存在一段時間了,但現(xiàn)在仍然是早期階段。我們知道它們存在的所有問題。我認(rèn)為我們必須非常坦誠地表明,這不是一個成品。
水木未來丨視界 iss. 43Credit@Will Douglas Heaven, MIT Tech Review
"The inside story of how ChatGPT was built from the people who made it"