OpenAI 博客發(fā)文介紹如何確保 AI 安全

以下為中文為 ChatGPT 翻譯:
OpenAI致力于確保強(qiáng)大的人工智能技術(shù)的安全和廣泛益處。我們知道我們的AI工具為當(dāng)今的人們提供了許多好處。全球范圍內(nèi)的用戶告訴我們,ChatGPT有助于提高他們的生產(chǎn)力,增強(qiáng)他們的創(chuàng)造力,并提供量身定制的學(xué)習(xí)體驗(yàn)。我們也意識(shí)到,像任何技術(shù)一樣,這些工具存在著真正的風(fēng)險(xiǎn),因此我們努力確保在我們的系統(tǒng)中各個(gè)層面都內(nèi)置了安全性。
構(gòu)建更安全的人工智能系統(tǒng)
在發(fā)布任何新系統(tǒng)之前,我們進(jìn)行了嚴(yán)格的測試,征求了外部專家的反饋意見,通過諸如強(qiáng)化學(xué)習(xí)與人類反饋等技術(shù)來改進(jìn)模型的行為,并建立了廣泛的安全監(jiān)控系統(tǒng)。
例如,在我們的最新模型GPT-4完成訓(xùn)練后,我們花費(fèi)了超過6個(gè)月的時(shí)間在整個(gè)組織內(nèi)部進(jìn)行工作,以使其更加安全和一致,然后再將其公開發(fā)布。
我們認(rèn)為,強(qiáng)大的人工智能系統(tǒng)應(yīng)該接受嚴(yán)格的安全評(píng)估。需要監(jiān)管來確保采用此類實(shí)踐,并且我們積極與各國政府合作,探討最佳的監(jiān)管形式。
從實(shí)際應(yīng)用中學(xué)習(xí),改進(jìn)安全保障措施
我們努力在部署之前預(yù)防可預(yù)見的風(fēng)險(xiǎn),但在實(shí)驗(yàn)室中我們所能學(xué)習(xí)到的有限。盡管進(jìn)行了廣泛的研究和測試,我們無法預(yù)測人們將如何使用我們的技術(shù),也無法預(yù)測人們將如何濫用它。這就是為什么我們認(rèn)為從實(shí)際應(yīng)用中學(xué)習(xí)是創(chuàng)建和逐步發(fā)布越來越安全的人工智能系統(tǒng)的關(guān)鍵組成部分。
我們謹(jǐn)慎而逐步地向越來越廣泛的人群發(fā)布帶有重大安全保障措施的新的人工智能系統(tǒng),并根據(jù)我們所學(xué)到的教訓(xùn)不斷進(jìn)行改進(jìn)。
我們通過自己的服務(wù)和API提供我們最有能力的模型,以便開發(fā)人員可以將這項(xiàng)技術(shù)直接集成到他們的應(yīng)用程序中。這使我們能夠監(jiān)控和采取行動(dòng)來防止濫用,并持續(xù)構(gòu)建緩解措施,以應(yīng)對(duì)人們?yōu)E用我們系統(tǒng)的真實(shí)方式,而不僅僅是對(duì)濫用可能的理論猜測。
實(shí)際應(yīng)用還促使我們制定越來越微妙的政策,針對(duì)代表對(duì)人們構(gòu)成真正風(fēng)險(xiǎn)的行為,同時(shí)仍然允許我們的技術(shù)進(jìn)行許多有益的用途。
關(guān)鍵是,我們認(rèn)為社會(huì)必須有時(shí)間來更新和調(diào)整越來越強(qiáng)大的人工智能,并且受到這項(xiàng)技術(shù)影響的每個(gè)人都應(yīng)該對(duì)AI的進(jìn)一步發(fā)展有很大的發(fā)言權(quán)。迭代式部署幫助我們更有效地將各利益相關(guān)者引入關(guān)于采用AI技術(shù)的對(duì)話中,比起如果他們沒有親身經(jīng)歷這些工具要更有效。
保護(hù)兒童
我們安全工作的一個(gè)關(guān)鍵重點(diǎn)是保護(hù)兒童。我們要求使用我們的AI工具的人必須年滿18歲或在父母批準(zhǔn)下年滿13歲,并正在研究驗(yàn)證選項(xiàng)。
我們不允許使用我們的技術(shù)生成令人憎恨、騷擾、暴力或成人內(nèi)容等其他類別的內(nèi)容。我們的最新模型GPT-4相對(duì)于GPT-3.5,拒絕生成不允許的內(nèi)容的幾率降低了82%,我們建立了一個(gè)強(qiáng)大的系統(tǒng)來監(jiān)控濫用。 GPT-4現(xiàn)在可以在ChatGPT Plus訂戶中使用,我們希望隨著時(shí)間的推移,可以讓更多的人使用。
我們已經(jīng)付出了大量努力,以最大程度地減少我們的模型生成有害兒童內(nèi)容的可能性。例如,當(dāng)用戶嘗試將兒童色情材料上傳到我們的圖像工具時(shí),我們會(huì)阻止并向國家失蹤和被剝削兒童中心報(bào)告。
除了我們默認(rèn)的安全保障措施外,我們還與開發(fā)者合作,例如非營利組織可汗學(xué)院(Khan Academy),他們已經(jīng)構(gòu)建了一款基于AI的助手,既可以作為學(xué)生的虛擬導(dǎo)師,也可以作為老師的課堂助手,為他們的使用情況量身定制了安全減輕措施。我們還在開發(fā)功能,允許開發(fā)者設(shè)置更嚴(yán)格的模型輸出標(biāo)準(zhǔn),以更好地支持需要此類功能的開發(fā)者和用戶。
尊重隱私
我們的大型語言模型是基于包括公開可用的、獲得授權(quán)的內(nèi)容和由人工審核員生成的內(nèi)容的廣泛語料庫進(jìn)行訓(xùn)練的。我們不會(huì)使用數(shù)據(jù)銷售我們的服務(wù)、廣告或構(gòu)建人們的個(gè)人資料——我們使用數(shù)據(jù)使我們的模型對(duì)人們更有幫助。例如,ChatGPT會(huì)通過進(jìn)一步對(duì)人們與它的對(duì)話進(jìn)行訓(xùn)練來提高自己的表現(xiàn)。
雖然我們的一些訓(xùn)練數(shù)據(jù)包含公開互聯(lián)網(wǎng)上的個(gè)人信息,但我們希望我們的模型了解的是世界,而不是個(gè)人隱私。因此,我們努力在訓(xùn)練數(shù)據(jù)集中刪除個(gè)人信息,微調(diào)模型以拒絕請(qǐng)求私人信息的要求,并響應(yīng)個(gè)人的請(qǐng)求從我們的系統(tǒng)中刪除其個(gè)人信息。這些步驟最大程度地減少了我們的模型可能會(huì)生成包含私人個(gè)人信息的回復(fù)的可能性。
提高事實(shí)準(zhǔn)確性
今天的大型語言模型基于它們以前看到的模式來預(yù)測下一個(gè)單詞序列,包括用戶提供的文本輸入。在某些情況下,下一個(gè)最可能的單詞可能不是事實(shí)準(zhǔn)確的。
提高事實(shí)準(zhǔn)確性是OpenAI和許多其他AI開發(fā)者的一個(gè)重點(diǎn),并且我們正在取得進(jìn)展。通過利用用戶反饋標(biāo)記為不正確的ChatGPT輸出作為主要數(shù)據(jù)來源,我們提高了GPT-4的事實(shí)準(zhǔn)確性。GPT-4比GPT-3.5更有可能產(chǎn)生事實(shí)內(nèi)容,提高了40%。
當(dāng)用戶注冊(cè)使用該工具時(shí),我們努力盡可能透明,指出ChatGPT可能不總是準(zhǔn)確的。但是,我們認(rèn)識(shí)到還有更多的工作要做,以進(jìn)一步減少幻覺的可能性,并教育公眾關(guān)于這些AI工具的當(dāng)前限制。
持續(xù)的研究和參與
我們認(rèn)為,解決人工智能(AI)安全問題的實(shí)際方法是投入更多時(shí)間和資源研究有效的緩解和對(duì)齊技術(shù),并在實(shí)際濫用案例中對(duì)它們進(jìn)行測試。
重要的是,我們還認(rèn)為,改善AI安全性和功能應(yīng)該同時(shí)進(jìn)行。我們迄今為止最好的安全工作來自于與我們最強(qiáng)大的模型合作,因?yàn)樗鼈兏瞄L遵循用戶的指示并更容易進(jìn)行引導(dǎo)。
我們將越來越謹(jǐn)慎地創(chuàng)建和部署更強(qiáng)大的模型,并將在我們的AI系統(tǒng)發(fā)展中繼續(xù)增強(qiáng)安全預(yù)防措施。
盡管我們等待了超過6個(gè)月才部署GPT-4以更好地了解它的功能、優(yōu)勢和風(fēng)險(xiǎn),但有時(shí)需要更長時(shí)間來改進(jìn)AI系統(tǒng)的安全性。因此,政策制定者和AI提供商將需要確保在全球范圍內(nèi)有效地治理AI的開發(fā)和部署,以確保沒有人為了超前而走捷徑。這是一個(gè)具有挑戰(zhàn)性的任務(wù),需要技術(shù)和機(jī)構(gòu)創(chuàng)新,但這也是我們渴望為之做出貢獻(xiàn)的任務(wù)。
解決安全問題還需要廣泛的辯論、實(shí)驗(yàn)和參與,包括對(duì)AI系統(tǒng)行為界限的討論。我們一直在促進(jìn)利益相關(guān)者之間的合作和公開對(duì)話,以創(chuàng)建一個(gè)安全的AI生態(tài)系統(tǒng)。
英文原文:https://openai.com/blog/our-approach-to-ai-safety