最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

對齊的最小可行產(chǎn)品

2023-02-22 15:32 作者:星群譯制組  | 我要投稿

對齊問題的引導(dǎo)性解決方案

作者:Jan Leike

時間:2022年3月29日


【摘要】我目前贊成的解決對齊問題的方法:使用充分對齊的AI系統(tǒng)進(jìn)行自動化對齊研究。它不需要人類自己解決所有的對齊問題,而且最終可以幫助引導(dǎo)出更好的對齊解決方案。


所有問題的空間確實很大,而人類目前能夠解決的問題的空間相比之下是相當(dāng)小的。這意味著,今天我們只是沒有能力解決大多數(shù)問題。這是研究AI的一個重要動機(jī):AI的進(jìn)步將大大擴(kuò)展人類能夠解決的問題的空間。


也許對齊問題的一勞永逸的解決方案就位于人類可以解決的問題的空間中。但也許不是。通過嘗試解決整個問題,我們可能試圖得到一些不在我們能力范圍內(nèi)的東西。相反,我們可以追求一個不那么雄心勃勃的目標(biāo),但最終仍然可以引導(dǎo)我們找到一個解決方案,一個最小可行的對齊產(chǎn)品(MVP)。


建立一個充分對齊的AI系統(tǒng),加速對齊研究,以對齊能力更強(qiáng)的AI系統(tǒng)


這將有什么幫助?

雖然我們顯然需要比現(xiàn)在更有能力的AI系統(tǒng)來做良好的對齊研究,但實際上并不需要一個比最好的人類專家更聰明的系統(tǒng)。與人類相比,機(jī)器有一堆優(yōu)勢:它們的工作速度比人類快得多,而且可以并行地嘗試更多的東西。此外,評估往往比生成更容易。我發(fā)現(xiàn)評估一個對齊的想法是否有前途要比想出一個好的想法容易得多。從一個未來的語言模型中抽出的100個對齊想法中,最好的是什么樣子的?那100萬個中最好的呢?


現(xiàn)在,對齊研究的進(jìn)展主要受制于人才:我們有很多感到興奮的想法和項目,但卻沒有人能夠推進(jìn)它們。將對齊研究的越來越多的部分自動化,將解開人才的瓶頸,因為它將使組織將計算(因此也是資本)轉(zhuǎn)化為對齊進(jìn)展。


從本質(zhì)上講,一個對齊的MVP可以讓我們引導(dǎo)所有其他的對齊問題的解決方案,并最終讓我們達(dá)到一個完整的解決方案(如果它存在)。最終,不應(yīng)該關(guān)心我們是如何達(dá)成對齊問題的解決方案的,無論是手動的還是自動化的。


這有什么不同?

這個目標(biāo)沒有其他一些對齊研究議程那么雄心勃勃,因為它并不要求我們對試圖對齊人工智能系統(tǒng)時出現(xiàn)的所有問題都有解決方案,包括遠(yuǎn)期的問題。不要誤會我的意思,這仍然是一個非常雄心勃勃的項目。


重要的是,這種方法并不假設(shè)人類(本身)會有任何關(guān)于對齊的根本性的新想法。如果人類真的能夠識別(可能是在可信賴的人工智能協(xié)助下)一個好的對齊建議,那么現(xiàn)有的技術(shù),如從人類反饋中強(qiáng)化學(xué)習(xí)和遞歸獎勵建模等想法,可能足以使這樣一個最小的可行產(chǎn)品充分對齊,給定足夠能力的AI系統(tǒng)。此外,反過來也是如此:如果人類沒有能力評估對齊建議的質(zhì)量(即使有人工智能的幫助),那么這也會阻礙人類提出的對齊建議的采用。


此外,一個對齊的MVP并不要求完全對齊一個一般能力的AI系統(tǒng)。對對齊研究很有幫助,不需要與現(xiàn)實世界或開放的互聯(lián)網(wǎng)互動。它也不需要模型告訴我們它對某一主題的所有了解,只要它有時告訴我們有用的信息(它不需要完全對齊)。


這種方法的缺點

這種方法的主要缺點之一是,在設(shè)計空間中靠近對齊的MVP是一個系統(tǒng),它加速AI的進(jìn)展比對齊的進(jìn)展更快,這是合理的。在實踐中,大部分花在實證對齊研究上的時間與花在ML研究上的時間相似。這可能意味著,當(dāng)我們的系統(tǒng)對對齊研究做出重大貢獻(xiàn)時,ML研究本身已經(jīng)開始自動化了。在我看來,無論如何,未來的ML研究最終會是這樣的,而這主要是由模型的能力所限制的。如果這是真的,那么在對齊MVP上的工作就不會影響AI的整體進(jìn)展速度。


我們從哪里開始?

我們在OpenAI的對齊團(tuán)隊的日常工作涉及各種任務(wù),這些任務(wù)在不同程度上已經(jīng)成熟,可以實現(xiàn)自動化。例如,最近在自動化編寫代碼方面有了很大的進(jìn)展,我們可以利用這些能力來做一個對齊研究助手。一個有足夠能力的生成式語言模型,在對齊研究和從網(wǎng)絡(luò)上刮來的討論中進(jìn)行訓(xùn)練,也應(yīng)該有助于討論和產(chǎn)生關(guān)于對齊的想法。


不用說,今天的AI還遠(yuǎn)遠(yuǎn)不能比人類更好地進(jìn)行對齊研究。盡管如此,我還是把它理解為我們今天取得迭代進(jìn)展的一般策略,它最終可以帶來所有未來對齊問題的解決方案。


感謝William Saunders、Beth Barnes、Jeff Wu、Leo Gao、Dan Mossing和Daniel Ziegler對本文和/或本文章早期版本的反饋。


對齊的最小可行產(chǎn)品的評論 (共 條)

分享到微博請遵守國家法律
嵊泗县| 中宁县| 麻城市| 绥滨县| 津南区| 咸阳市| 长春市| 全南县| 榕江县| 新营市| 长岭县| 宾川县| 肥城市| 西峡县| 青海省| 射阳县| 吉木乃县| 扎赉特旗| 九江市| 体育| 西平县| 桃园市| 淳安县| 千阳县| 高青县| 岳池县| 黎平县| 图片| 安福县| 太康县| 汤阴县| 五常市| 鄂托克前旗| 明溪县| 大关县| 旺苍县| 峡江县| 九寨沟县| 湖北省| 依安县| 莱阳市|