OpenAI 將花費(fèi)4年和20%算力研發(fā)超級(jí)矯正系統(tǒng)來監(jiān)控ai
7月5日Openai正式宣布成立一個(gè)新的研究團(tuán)隊(duì) ——Superalignment 團(tuán)隊(duì),由 OpenAI 聯(lián)合創(chuàng)始人 Ilya Sutskever 和 Jan Leike 共同領(lǐng)導(dǎo)。值得注意的是,這個(gè)團(tuán)隊(duì)的主要任務(wù)是構(gòu)建一個(gè)與人類水平相當(dāng)?shù)摹⒇?fù)責(zé)模型矯正的「AI 研究員」。也就是說,OpenAI 要用 AI 來監(jiān)督 AI。
OpenAI CEO Sam Altman 和 OpenAI 聯(lián)合創(chuàng)始人 Ilya Sutskever
Openai 認(rèn)為:人工智能技術(shù)正在飛速發(fā)展,影響全人類的超級(jí)智能(Superintelligence)看似遙遠(yuǎn),但極有可能在十年內(nèi)到來。超級(jí)智能將是人類發(fā)明的最具影響力的技術(shù),可以幫助我們解決世界上許多最重要的問題。但超級(jí)智能的巨大力量也可能非常危險(xiǎn),并可能導(dǎo)致人類喪失權(quán)力,甚至導(dǎo)致人類滅絕。
管控這些風(fēng)險(xiǎn)需要建立新的管控機(jī)構(gòu),并解決 AI 模型的矯正問題。一個(gè)顯著的問題是:超級(jí)智能可能比人類更聰明,如何能讓如此強(qiáng)大的 AI 系統(tǒng)遵循人類的意愿?
目前,Openai還沒有一個(gè)解決方案來引導(dǎo)或控制潛在的超級(jí)人工智能,并防止其失控。Openai當(dāng)前矯正人工智能的技術(shù),例如根據(jù)人類反饋進(jìn)行強(qiáng)化學(xué)習(xí),依賴于人類監(jiān)督人工智能的能力。但人類無法可靠地監(jiān)督比我們聰明得多的人工智能系統(tǒng),其他假設(shè)在未來也可能被打破,比如部署期間有利的泛化屬性,或者我們的模型在訓(xùn)練期間無法成功檢測(cè)和破壞監(jiān)督。因此目前的矯正技術(shù)無法擴(kuò)展到超級(jí)智能,需要重新研發(fā)。
Openai的目標(biāo)是建立一個(gè)大致達(dá)到人類水平的自動(dòng)矯正研究人員。然后,可以使用大量計(jì)算來擴(kuò)展工作,并迭代地調(diào)整超級(jí)智能。
1)開發(fā)一個(gè)可擴(kuò)展的訓(xùn)練方法:
利用人工智能系統(tǒng)來協(xié)助評(píng)估其他人工智能系統(tǒng),并將 AI 模型的監(jiān)督能力泛化到人類無法監(jiān)督的任務(wù)上。
2)驗(yàn)證系統(tǒng):
為了驗(yàn)證系統(tǒng)的一致性,開發(fā)過程中會(huì)自動(dòng)搜索有問題的行為(穩(wěn)健性)和有問題的內(nèi)部結(jié)構(gòu)(可解釋性)。
3)對(duì)整個(gè)對(duì)齊管道進(jìn)行壓力測(cè)試:
最后,使用未對(duì)齊的模型來測(cè)試整個(gè)流程,確保所提方法可以檢測(cè)到最嚴(yán)重的未對(duì)齊類型(對(duì)抗性測(cè)試)。