ChatGPT人工智能聊天程序-(Chat Generative Pre-trained Trans

最近ChatGPT很火熱,ChatGPT涉及自然語言,深度學(xué)習(xí)模型。Toby老師也是從事機器學(xué)習(xí)模型工作,因此特別關(guān)注了一下,順便分享ChatGPT相關(guān)知識。

開發(fā)者 OpenAI
首次發(fā)布 2022年11月30日,2個月前
當(dāng)前版本 2023年2月13日,4天前
類型 聊天機器人
許可協(xié)議 專有軟件
網(wǎng)站 chat.openai.com/chat
ChatGPT概述
ChatGPT(全名:Chat Generative Pre-trained Transformer)是由OpenAI開發(fā)的一個人工智能聊天機器人程序,于2022年11月推出。該程序使用基于GPT-3.5架構(gòu)的大型語言模型并通過強化學(xué)習(xí)進(jìn)行訓(xùn)練。
ChatGPT目前仍以文字方式交互,而除了可以通過人類自然對話方式進(jìn)行交互,還可以用于相對復(fù)雜的語言工作,包括自動文本生成、自動問答、自動摘要等在內(nèi)的多種任務(wù)。如:在自動文本生成方面,ChatGPT可以根據(jù)輸入的文本自動生成類似的文本(劇本、歌曲、企劃等),在自動問答方面,ChatGPT可以根據(jù)輸入的問題自動生成答案。還具有編寫和調(diào)試計算機程序的能力。在推廣期間,所有人可以免費注冊,并在登錄后免費使用ChatGPT實現(xiàn)與AI機器人對話。
ChatGPT可以寫出相似于真人程度的文章,并因其在許多知識領(lǐng)域給出詳細(xì)的回答和清晰的答案而迅速獲得關(guān)注,證明了從前認(rèn)為不會被AI取代的知識型工作它也足以勝任,對于金融與白領(lǐng)人力市場的沖擊相當(dāng)大,但其事實準(zhǔn)確性參差不齊被認(rèn)為是一重大缺陷,其基于意識形態(tài)的模型訓(xùn)練結(jié)果并被認(rèn)為需要小心地校正。ChatGPT于2022年11月發(fā)布后,OpenAI估值已漲至290億美元。上線兩個月后,用戶數(shù)量達(dá)到1億。
Toby老師登錄openAI官網(wǎng)實測,確實網(wǎng)頁視覺效果比較好。

官網(wǎng)闡述是:ChatGPT是用于對話的優(yōu)化語言模型。我們訓(xùn)練了一個叫做ChatGPT的模型,它以對話方式進(jìn)行交互。對話格式使ChatGPT能夠回答后續(xù)問題、承認(rèn)錯誤、質(zhì)疑不正確的前提和拒絕不適當(dāng)?shù)恼埱蟆hatGPT是InstructGPT的兄弟模型,它被訓(xùn)練為在提示中遵循指令并提供詳細(xì)的響應(yīng)。
OpenAI
OpenAI(開放人工智能)是美國一個人工智能研究實驗室,由營利組織 OpenAI LP 與母公司非營利組織 OpenAI Inc 所組成,目的是促進(jìn)和發(fā)展友好的人工智能,使人類整體受益。OpenAI成立于2015年底,總部位于加利福尼亞州舊金山,組織目標(biāo)是通過與其他機構(gòu)和研究者的“自由合作”,向公眾開放專利和研究成果。創(chuàng)始人伊隆·馬斯克以及山姆·柯曼的動機是出于對強人工智能潛在風(fēng)險的擔(dān)憂。至2018年,OpenAI的總部坐落于舊金山的米慎區(qū),與伊隆·馬斯克的另一座公司Neuralink在同一辦公室大樓。
下圖是OpenAI舊金山總部的先驅(qū)大樓。

2016年,OpenAI宣稱將制造“通用”機器人,希望能夠預(yù)防人工智能的災(zāi)難性影響,推動人工智能發(fā)揮積極作用。
2019年3月1日成立OpenAI LP子公司,目的為營利所用。
2019年7月22日微軟投資OpenAI 10億美元,雙方將攜手合作替Azure云端平臺服務(wù)開發(fā)人工智能技術(shù)。2020年6月11日宣布了GPT-3語言模型,微軟于2020年9月22日取得獨家授權(quán)。
2022年11月30日,OpenAI發(fā)布了一個名為ChatGPT的自然語言生成式模型,它以對話方式進(jìn)行交互。在研究預(yù)覽期間,用戶注冊并登陸后可免費使用ChatGPT。但是該項目對一些包括很多地區(qū)不可用。
模型訓(xùn)練
ChatGPT使用基于人類反饋的監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)在 GPT-3.5 之上進(jìn)行了微調(diào)。這兩種方法都使用了人類訓(xùn)練員來提高模型的性能, 通過人類干預(yù)以增強機器學(xué)習(xí)的效果,從而獲得更為逼真的結(jié)果。在監(jiān)督學(xué)習(xí)的情況下,模型被提供了這樣一些對話, 在對話中訓(xùn)練師充當(dāng)用戶和AI助理兩種角色。在強化步驟中,人類訓(xùn)練員首先對模型在先前對話中創(chuàng)建的響應(yīng)進(jìn)行評級。這些級別用于創(chuàng)建“獎勵模型”, 使用近端策略優(yōu)化(Proximal Policy Optimization-PPO)的多次迭代進(jìn)一步微調(diào), 。這種策略優(yōu)化算法比信任域策略優(yōu)化(trust region policy optimization)算法更為高效。這些模型是與 Microsoft合作,在其Microsoft Azure超級計算基礎(chǔ)設(shè)施上訓(xùn)練的。
此外,OpenAI繼續(xù)從ChatGPT用戶那里收集數(shù)據(jù),這些數(shù)據(jù)可用于進(jìn)一步訓(xùn)練和微調(diào) ChatGPT。允許用戶對他們從ChatGPT收到的回復(fù)投贊成票或反對票;在投贊成票或反對票時,他們還可以填寫一個帶有額外反饋的文本字段。
ChatGPT的訓(xùn)練數(shù)據(jù)包括各種文檔以及關(guān)于互聯(lián)網(wǎng)、編程語言等各類知識,如BBS和Python編程語言。
關(guān)于ChatGPT編寫和調(diào)試計算機程序的能力的訓(xùn)練, 由于深度學(xué)習(xí)模型不懂編程,與所有其他基于深度學(xué)習(xí)的語言模型一樣,只是在獲取代碼片段之間的統(tǒng)計相關(guān)性。
斯坦福大學(xué)的研究發(fā)現(xiàn),GPT3已經(jīng)可以解決70%的心智理論任務(wù),相當(dāng)于7歲兒童;至于GPT3.5(ChatGPT的同源模型),更是解決了93%的任務(wù),心智相當(dāng)于9歲兒童。但這并不意味著,ChatGPT就真正具備了心智理論。可能它即使不被設(shè)計到AI系統(tǒng)中,也可以作為“副產(chǎn)品”通過訓(xùn)練得到。因此,相比探究GPT3.5是不是真的有了心智還是像有心智,更需要反思的是這些測試本身。
官網(wǎng)對模型訓(xùn)練描述為:
我們使用與InstructGPT相同的方法,使用來自人類反饋的強化學(xué)習(xí) (RLHF) 來訓(xùn)練該模型,但數(shù)據(jù)收集設(shè)置略有不同。我們使用監(jiān)督微調(diào)訓(xùn)練了一個初始模型:人類 AI 訓(xùn)練員提供對話,他們在對話中扮演雙方——用戶和 AI 助手。我們讓培訓(xùn)師可以訪問模型編寫的建議,以幫助他們撰寫回復(fù)。我們將這個新的對話數(shù)據(jù)集與 InstructGPT 數(shù)據(jù)集混合,我們將其轉(zhuǎn)換為對話格式。
為了創(chuàng)建強化學(xué)習(xí)的獎勵模型,我們需要收集比較數(shù)據(jù),其中包含兩個或多個按質(zhì)量排序的模型響應(yīng)。為了收集這些數(shù)據(jù),我們收集了 AI 培訓(xùn)師與聊天機器人的對話。我們隨機選擇了一條模型編寫的消息,抽取了幾個備選的完成方式,并讓 AI 培訓(xùn)師對它們進(jìn)行排名。使用這些獎勵模型,我們可以使用近端策略優(yōu)化來微調(diào)模型。我們對這個過程進(jìn)行了幾次迭代。

ChatGPT 是從 GPT-3.5 系列中的一個模型進(jìn)行微調(diào)的,該模型于 2022 年初完成訓(xùn)練。您可以在此處了解有關(guān) 3.5 系列的更多信息。ChatGPT 和 GPT 3.5 在 Azure AI 超級計算基礎(chǔ)設(shè)施上進(jìn)行了訓(xùn)練。
特點和局限
雖然聊天機器人的核心功能是模仿人類對話者,但ChatGPT用途廣泛。例如,具有編寫和調(diào)試計算機程序的能力;創(chuàng)作音樂、電視劇、童話故事和學(xué)生論文;回答測試問題(在某些測試情境下,水平高于普通人類測試者);寫詩和歌詞;模擬Linux系統(tǒng)等。
ChatGPT局限性
ChatGPT 有時會寫出看似合理但不正確或荒謬的答案。解決這個問題具有挑戰(zhàn)性,因為:
(1)在 RL 訓(xùn)練期間,目前沒有真實來源;
(2) 訓(xùn)練模型更加謹(jǐn)慎導(dǎo)致它拒絕可以正確回答的問題;
(3) 監(jiān)督訓(xùn)練會誤導(dǎo)模型,因為理想的答案取決于模型知道什么,而不是人類演示者知道什么。
ChatGPT 對輸入措辭的調(diào)整或多次嘗試相同的提示很敏感。例如,給定一個問題的措辭,模型可以聲稱不知道答案,但只要稍作改寫,就可以正確回答。
該模型通常過于冗長并過度使用某些短語,例如重申它是 OpenAI 訓(xùn)練的語言模型。這些問題源于訓(xùn)練數(shù)據(jù)的偏差(訓(xùn)練者更喜歡看起來更全面的更長答案)和眾所周知的過度優(yōu)化問題。
理想情況下,當(dāng)用戶提供模棱兩可的查詢時,模型會提出澄清問題。相反,我們當(dāng)前的模型通常會猜測用戶的意圖。
雖然我們已努力使模型拒絕不當(dāng)請求,但它有時會響應(yīng)有害指令或表現(xiàn)出有偏見的行為。我們正在使用Moderation API來警告或阻止某些類型的不安全內(nèi)容,但我們預(yù)計它目前會有一些漏報和漏報。我們渴望收集用戶反饋,以幫助我們正在進(jìn)行的改進(jìn)該系統(tǒng)的工作。
迭代部署
今天發(fā)布的 ChatGPT 研究版本是 OpenAI迭代部署越來越安全和有用的人工智能系統(tǒng)的最新一步。從早期模型(如 GPT-3 和 Codex)的部署中汲取的許多教訓(xùn)已經(jīng)為本次發(fā)布的安全緩解措施提供了信息,包括通過使用人類反饋強化學(xué)習(xí) (RLHF) 實現(xiàn)的有害和不真實輸出的大幅減少。
ChatGPT就為大家分享到這里,歡迎關(guān)注我們的自研課程《Python金融風(fēng)控評分卡模型和數(shù)據(jù)分析》。

如果有更高需求朋友可聯(lián)系up主,例如研究生,博士生論文,企業(yè)建模需求。

版權(quán)聲明:文章來自公眾號(python風(fēng)控模型),未經(jīng)許可,不得抄襲。遵循CC 4.0 BY-SA版權(quán)協(xié)議,轉(zhuǎn)載請附上原文出處鏈接及本聲明。