散文網(wǎng) » 科技 »學(xué)習(xí) » OpenAI 博客發(fā)文介紹如何確保 AI 安全

OpenAI 博客發(fā)文介紹如何確保 AI 安全

2023-04-15 19:25 作者:靈亦rEd 0人讀過 | 我要投稿

以下為中文為 ChatGPT 翻譯：

OpenAI致力于確保強(qiáng)大的人工智能技術(shù)的安全和廣泛益處。我們知道我們的AI工具為當(dāng)今的人們提供了許多好處。全球范圍內(nèi)的用戶告訴我們，ChatGPT有助于提高他們的生產(chǎn)力，增強(qiáng)他們的創(chuàng)造力，并提供量身定制的學(xué)習(xí)體驗(yàn)。我們也意識(shí)到，像任何技術(shù)一樣，這些工具存在著真正的風(fēng)險(xiǎn)，因此我們努力確保在我們的系統(tǒng)中各個(gè)層面都內(nèi)置了安全性。

構(gòu)建更安全的人工智能系統(tǒng)

在發(fā)布任何新系統(tǒng)之前，我們進(jìn)行了嚴(yán)格的測試，征求了外部專家的反饋意見，通過諸如強(qiáng)化學(xué)習(xí)與人類反饋等技術(shù)來改進(jìn)模型的行為，并建立了廣泛的安全監(jiān)控系統(tǒng)。

例如，在我們的最新模型GPT-4完成訓(xùn)練后，我們花費(fèi)了超過6個(gè)月的時(shí)間在整個(gè)組織內(nèi)部進(jìn)行工作，以使其更加安全和一致，然后再將其公開發(fā)布。

我們認(rèn)為，強(qiáng)大的人工智能系統(tǒng)應(yīng)該接受嚴(yán)格的安全評(píng)估。需要監(jiān)管來確保采用此類實(shí)踐，并且我們積極與各國政府合作，探討最佳的監(jiān)管形式。

從實(shí)際應(yīng)用中學(xué)習(xí)，改進(jìn)安全保障措施

我們努力在部署之前預(yù)防可預(yù)見的風(fēng)險(xiǎn)，但在實(shí)驗(yàn)室中我們所能學(xué)習(xí)到的有限。盡管進(jìn)行了廣泛的研究和測試，我們無法預(yù)測人們將如何使用我們的技術(shù)，也無法預(yù)測人們將如何濫用它。這就是為什么我們認(rèn)為從實(shí)際應(yīng)用中學(xué)習(xí)是創(chuàng)建和逐步發(fā)布越來越安全的人工智能系統(tǒng)的關(guān)鍵組成部分。

我們謹(jǐn)慎而逐步地向越來越廣泛的人群發(fā)布帶有重大安全保障措施的新的人工智能系統(tǒng)，并根據(jù)我們所學(xué)到的教訓(xùn)不斷進(jìn)行改進(jìn)。

我們通過自己的服務(wù)和API提供我們最有能力的模型，以便開發(fā)人員可以將這項(xiàng)技術(shù)直接集成到他們的應(yīng)用程序中。這使我們能夠監(jiān)控和采取行動(dòng)來防止濫用，并持續(xù)構(gòu)建緩解措施，以應(yīng)對(duì)人們?yōu)E用我們系統(tǒng)的真實(shí)方式，而不僅僅是對(duì)濫用可能的理論猜測。

實(shí)際應(yīng)用還促使我們制定越來越微妙的政策，針對(duì)代表對(duì)人們構(gòu)成真正風(fēng)險(xiǎn)的行為，同時(shí)仍然允許我們的技術(shù)進(jìn)行許多有益的用途。

關(guān)鍵是，我們認(rèn)為社會(huì)必須有時(shí)間來更新和調(diào)整越來越強(qiáng)大的人工智能，并且受到這項(xiàng)技術(shù)影響的每個(gè)人都應(yīng)該對(duì)AI的進(jìn)一步發(fā)展有很大的發(fā)言權(quán)。迭代式部署幫助我們更有效地將各利益相關(guān)者引入關(guān)于采用AI技術(shù)的對(duì)話中，比起如果他們沒有親身經(jīng)歷這些工具要更有效。

保護(hù)兒童

我們安全工作的一個(gè)關(guān)鍵重點(diǎn)是保護(hù)兒童。我們要求使用我們的AI工具的人必須年滿18歲或在父母批準(zhǔn)下年滿13歲，并正在研究驗(yàn)證選項(xiàng)。

我們不允許使用我們的技術(shù)生成令人憎恨、騷擾、暴力或成人內(nèi)容等其他類別的內(nèi)容。我們的最新模型GPT-4相對(duì)于GPT-3.5，拒絕生成不允許的內(nèi)容的幾率降低了82％，我們建立了一個(gè)強(qiáng)大的系統(tǒng)來監(jiān)控濫用。 GPT-4現(xiàn)在可以在ChatGPT Plus訂戶中使用，我們希望隨著時(shí)間的推移，可以讓更多的人使用。

我們已經(jīng)付出了大量努力，以最大程度地減少我們的模型生成有害兒童內(nèi)容的可能性。例如，當(dāng)用戶嘗試將兒童色情材料上傳到我們的圖像工具時(shí)，我們會(huì)阻止并向國家失蹤和被剝削兒童中心報(bào)告。

除了我們默認(rèn)的安全保障措施外，我們還與開發(fā)者合作，例如非營利組織可汗學(xué)院（Khan Academy），他們已經(jīng)構(gòu)建了一款基于AI的助手，既可以作為學(xué)生的虛擬導(dǎo)師，也可以作為老師的課堂助手，為他們的使用情況量身定制了安全減輕措施。我們還在開發(fā)功能，允許開發(fā)者設(shè)置更嚴(yán)格的模型輸出標(biāo)準(zhǔn)，以更好地支持需要此類功能的開發(fā)者和用戶。

尊重隱私

我們的大型語言模型是基于包括公開可用的、獲得授權(quán)的內(nèi)容和由人工審核員生成的內(nèi)容的廣泛語料庫進(jìn)行訓(xùn)練的。我們不會(huì)使用數(shù)據(jù)銷售我們的服務(wù)、廣告或構(gòu)建人們的個(gè)人資料——我們使用數(shù)據(jù)使我們的模型對(duì)人們更有幫助。例如，ChatGPT會(huì)通過進(jìn)一步對(duì)人們與它的對(duì)話進(jìn)行訓(xùn)練來提高自己的表現(xiàn)。

雖然我們的一些訓(xùn)練數(shù)據(jù)包含公開互聯(lián)網(wǎng)上的個(gè)人信息，但我們希望我們的模型了解的是世界，而不是個(gè)人隱私。因此，我們努力在訓(xùn)練數(shù)據(jù)集中刪除個(gè)人信息，微調(diào)模型以拒絕請(qǐng)求私人信息的要求，并響應(yīng)個(gè)人的請(qǐng)求從我們的系統(tǒng)中刪除其個(gè)人信息。這些步驟最大程度地減少了我們的模型可能會(huì)生成包含私人個(gè)人信息的回復(fù)的可能性。

提高事實(shí)準(zhǔn)確性

今天的大型語言模型基于它們以前看到的模式來預(yù)測下一個(gè)單詞序列，包括用戶提供的文本輸入。在某些情況下，下一個(gè)最可能的單詞可能不是事實(shí)準(zhǔn)確的。

提高事實(shí)準(zhǔn)確性是OpenAI和許多其他AI開發(fā)者的一個(gè)重點(diǎn)，并且我們正在取得進(jìn)展。通過利用用戶反饋標(biāo)記為不正確的ChatGPT輸出作為主要數(shù)據(jù)來源，我們提高了GPT-4的事實(shí)準(zhǔn)確性。GPT-4比GPT-3.5更有可能產(chǎn)生事實(shí)內(nèi)容，提高了40％。

當(dāng)用戶注冊(cè)使用該工具時(shí)，我們努力盡可能透明，指出ChatGPT可能不總是準(zhǔn)確的。但是，我們認(rèn)識(shí)到還有更多的工作要做，以進(jìn)一步減少幻覺的可能性，并教育公眾關(guān)于這些AI工具的當(dāng)前限制。

持續(xù)的研究和參與

我們認(rèn)為，解決人工智能（AI）安全問題的實(shí)際方法是投入更多時(shí)間和資源研究有效的緩解和對(duì)齊技術(shù)，并在實(shí)際濫用案例中對(duì)它們進(jìn)行測試。

重要的是，我們還認(rèn)為，改善AI安全性和功能應(yīng)該同時(shí)進(jìn)行。我們迄今為止最好的安全工作來自于與我們最強(qiáng)大的模型合作，因?yàn)樗鼈兏瞄L遵循用戶的指示并更容易進(jìn)行引導(dǎo)。

我們將越來越謹(jǐn)慎地創(chuàng)建和部署更強(qiáng)大的模型，并將在我們的AI系統(tǒng)發(fā)展中繼續(xù)增強(qiáng)安全預(yù)防措施。

盡管我們等待了超過6個(gè)月才部署GPT-4以更好地了解它的功能、優(yōu)勢和風(fēng)險(xiǎn)，但有時(shí)需要更長時(shí)間來改進(jìn)AI系統(tǒng)的安全性。因此，政策制定者和AI提供商將需要確保在全球范圍內(nèi)有效地治理AI的開發(fā)和部署，以確保沒有人為了超前而走捷徑。這是一個(gè)具有挑戰(zhàn)性的任務(wù)，需要技術(shù)和機(jī)構(gòu)創(chuàng)新，但這也是我們渴望為之做出貢獻(xiàn)的任務(wù)。

解決安全問題還需要廣泛的辯論、實(shí)驗(yàn)和參與，包括對(duì)AI系統(tǒng)行為界限的討論。我們一直在促進(jìn)利益相關(guān)者之間的合作和公開對(duì)話，以創(chuàng)建一個(gè)安全的AI生態(tài)系統(tǒng)。

英文原文：https://openai.com/blog/our-approach-to-ai-safety

標(biāo)簽：人工智能 AI OpenAI ChatGPT