散文網(wǎng) » 筆記 »全部筆記 » 【OpenAI杰出研究員Kenneth O. Stanley】OpenAI創(chuàng)新背

【OpenAI杰出研究員Kenneth O. Stanley】OpenAI創(chuàng)新背

2023-07-12 15:56 作者:ChatGPT開講啦 0人讀過 | 我要投稿

OpenAI研究員肯尼斯·斯坦利：我從AI研究中，發(fā)現(xiàn)了人類思維的根本BUG

原創(chuàng)?混沌學(xué)園?混沌學(xué)園?2023-07-09 20:49?發(fā)表于北京

在混沌“一”思維創(chuàng)新嘉年華活動現(xiàn)場，有人問肯尼斯·斯坦利：“在公司里創(chuàng)新扮演著什么樣的角色？管理者或領(lǐng)導(dǎo)層，迎接AI應(yīng)該做什么準(zhǔn)備？”

他說：“對一些公司來說，不必整個(gè)公司試圖創(chuàng)新，而是公司的一部分考慮創(chuàng)新，這對公司的某些器官或組織來說是一種保護(hù)。公司今年如何增加收入？如何增加利潤？提出這種問題，實(shí)際上就會抑制創(chuàng)新?！?/span>

“我們研究人工智能的時(shí)候，發(fā)現(xiàn)了一個(gè)人類根本性缺陷。即‘單一的目標(biāo)導(dǎo)向思維會阻礙創(chuàng)造力和創(chuàng)新’，這對社會而言是一個(gè)極其嚴(yán)重的問題?！?/span>

“人類在人工智能或機(jī)器學(xué)習(xí)領(lǐng)域的許多基準(zhǔn)文化可能已落入歧途。算法的強(qiáng)大力量，并不在于當(dāng)你真正建立一個(gè)目標(biāo)時(shí)，它們做事情的能力；而在于，當(dāng)你沒有設(shè)定目標(biāo)的時(shí)候，它們做事情的能力?！笨夏崴埂に固估↘enneth Stanley）說。

肯尼斯·斯坦利（Kenneth Stanley），OpenAI 研究員，全球創(chuàng)新思維和前沿科技領(lǐng)域的代表性專家、人工智能科學(xué)家。他曾任中佛羅里達(dá)大學(xué)教授，深耕機(jī)器學(xué)習(xí)領(lǐng)域。他曾是 Uber 人工智能實(shí)驗(yàn)室的創(chuàng)始成員，在行業(yè)內(nèi)具有卓著的影響力。

在對前沿算法的研究的過程中，他意外收獲了對人類約定俗成的思維方式的全新顛覆，在人工智能研發(fā)領(lǐng)域取得了飛躍式的突破和進(jìn)展，產(chǎn)生了一系列惠及人類的偉大創(chuàng)造。

什么是“尋寶者思維”、“踏腳石模型”、“新奇性探索”？

今天，肯尼斯·斯坦利做客混沌“一”思維創(chuàng)新嘉年華活動。帶來議題《為什么偉大不能被計(jì)劃》，帶你探討人工智能帶來的啟發(fā)，習(xí)得創(chuàng)新的元邏輯。

混沌在上海滴水湖洲際酒店舉辦“一”思維創(chuàng)新嘉年華活動。打造一整座島、兩天兩夜的共學(xué)場、2000位混沌同學(xué)參與其中。邀請張穎、李志飛、傅盛、葉軍、韋青、OpenAI研究員……AI 全明星陣容空降授課，更有7/8-7/9兩天線上直播免費(fèi)開放，從4 大視角，為你講透大模型時(shí)代的底層邏輯。

以下為分享筆記：

授課老師｜肯尼斯·斯坦利（Kenneth Stanley），OpenAI 研究員，人工智能科學(xué)家

編輯丨混沌商業(yè)研究團(tuán)隊(duì)

支持丨混沌前沿課

?目標(biāo)悖論

很榮幸能跟大家分享、交流。我的研究領(lǐng)域是開放性（open-endedness）機(jī)器學(xué)習(xí)。我們都知道，大多數(shù)機(jī)器學(xué)習(xí)算法，往往預(yù)設(shè)了一個(gè)優(yōu)化目標(biāo)，達(dá)成目標(biāo)很重要。開放式算法與此不同，這一算法沒有終點(diǎn)。它讓機(jī)器具有無限的潛力和持續(xù)的創(chuàng)造力，可以在沒有明確目標(biāo)或終止條件的情況下不斷演化和產(chǎn)生新的結(jié)果。

?

那什么才算開放性？什么進(jìn)程是永遠(yuǎn)不會停止的？舉兩個(gè)現(xiàn)實(shí)世界中我們能體會的例子，它們非常具有啟發(fā)性。

第一個(gè)例子是進(jìn)化。從地球上的第一個(gè)單細(xì)胞開始，它不斷分化并創(chuàng)造，經(jīng)歷數(shù)億年甚至十多億年，創(chuàng)造出了人類等等生物，進(jìn)化的腳步永遠(yuǎn)不會停止。

第二個(gè)例子是文明。人類出現(xiàn)后，你會看到思想和文明的迸發(fā)，這個(gè)過程是宏大的，不可思議的。從火種和車輪一直演變到現(xiàn)在的計(jì)算機(jī)、空間站，文明不斷演化，一直持續(xù)到今天。它不會停留在某個(gè)具體的目標(biāo)上，只會持續(xù)向前發(fā)展。從某些方面來看，文明其實(shí)是人類最重要的創(chuàng)造發(fā)明。不斷再造周圍世界的能力，是人類智力的重要組成部分。

我們都是開放性進(jìn)化的產(chǎn)物，而人類作為產(chǎn)物本身又創(chuàng)造了文明。

在這樣的背景下，我想同大家分享一個(gè)故事。我們研究人工智能的時(shí)候，發(fā)現(xiàn)了一個(gè)人類根本性缺陷。即“單一的目標(biāo)導(dǎo)向思維會阻礙創(chuàng)造力和創(chuàng)新”，這對社會而言是一個(gè)極其嚴(yán)重的問題。

不僅是機(jī)器算法，你會發(fā)現(xiàn)人類所做的一切，幾乎都是以目標(biāo)為導(dǎo)向的。但目標(biāo)在我們處理重大事項(xiàng)時(shí)，有時(shí)反倒是無用的，無法幫我們實(shí)現(xiàn)創(chuàng)新。

?

舉個(gè)例子，10多年前我在大學(xué)任教時(shí)，建立了一個(gè)網(wǎng)站Picbreeder。它可以幫助人們“繁衍”圖片——用一張圖片作為母圖片，可以 " 生出 " 與之類似的許多子圖片。這個(gè)技術(shù)和現(xiàn)代的圖像生成技術(shù)是不同的。

如果你準(zhǔn)備在Picbreeder繁衍圖片，可以先自選一張圖片，這張選中的圖片就是下一代圖片的父母。你可以轉(zhuǎn)身去忙別的事兒，Picbreeder不需要任何指令就會繼續(xù)繁衍，到最后，出現(xiàn)的圖片可能是一只蝴蝶，一個(gè)頭骨，甚至是木星。這個(gè)過程令人震撼。

我需要向各位解釋一個(gè)非常重要的機(jī)制，它被稱為分支（branching）。如果用戶確實(shí)繁衍出一些有趣的東西，并且通過網(wǎng)站保存這一圖像，相當(dāng)于把圖像公開發(fā)布。那么其他人就可以把這張圖片為起點(diǎn)進(jìn)行分支演化，也就是用這張圖去繁衍，獲得新圖片。這意味著，在前人的基礎(chǔ)上繼續(xù)發(fā)現(xiàn)更多新事物。

?

這就出現(xiàn)了生物學(xué)家口中的不斷發(fā)展的系統(tǒng)發(fā)育。就像一棵生命樹，這些生命之樹末端的葉子就代表著新的發(fā)現(xiàn)，而這些都是以一種看似偶然的方式被發(fā)現(xiàn)的。

大家可以看下面這張幻燈片上的圖片，為什么會繁衍出現(xiàn)這些圖片？我得出了一個(gè)驚人的發(fā)現(xiàn)。

?

有些人認(rèn)為，想最終得到一只熱帶鳥的圖片，只要選擇看起來最像熱帶鳥的斑點(diǎn)，通過繁衍就可以得到想要的結(jié)果。但有趣的是，事情不是這樣運(yùn)作的。

如果你想用Picbreeder生成一張熱帶鳥的圖片，肯定會失敗，這就是以目標(biāo)為導(dǎo)向的思維方式。能讓我們繁衍出鳥類圖片的東西，往往看起來并不像鳥。我們的世界是復(fù)雜的，臆斷只會導(dǎo)致失敗。一些人按照自己的想法去繁衍圖片，最終的結(jié)果令他們感到沮喪。

那么，如果將它們作為目標(biāo)來搜索無法成功的話，怎樣做才能成功呢？我認(rèn)為這就是事情變得更加深刻的起點(diǎn)。

再以Picbreeder為例回答這個(gè)問題。我用一張外星人臉的圖片，繁衍出一輛汽車的圖片。

首先有一個(gè)非常重要的前提，我最初的想法并不是繁衍出一輛車。當(dāng)時(shí)，我只是看到了是一張像E.T.一樣的外星人臉，覺得繁衍這張圖片一定很有趣，可以得到更多的外星人面孔。

神奇的事情發(fā)生了，通過分支出來的圖片，外星人的眼睛開始向下移動，這時(shí)我意識到外星人的眼睛正逐漸變成輪子，可能會演化出一輛汽車。

在演化的過程中有兩個(gè)條件必須成立。首先，必須有人去完成我永遠(yuǎn)不會做的事（比如繁衍出一張外星人圖片，供我選擇）；其次，我不能帶著目標(biāo)去做事。只有這樣，我才能獲得我想要的發(fā)現(xiàn)。

讓人震驚的是，這種繁衍方式，不是巧合。Picbreeder數(shù)據(jù)庫記錄了每一張圖片的繁衍過程，記錄了每一張熱門圖片背后的“踏腳石”，我們能夠確切地知道每張圖片是怎么來的。Picbreeder網(wǎng)站上的大多數(shù)熱門圖片，都有著完全相同的繁衍路徑。

這其中蘊(yùn)含著一個(gè)非常奇怪的寓意，你只有不帶目的的尋找才能實(shí)現(xiàn)目的。這與我們的直覺相違背，也與我們對現(xiàn)實(shí)生活的認(rèn)知相悖。

如果這條理論成立，人們就不能通過對目標(biāo)的尋找來發(fā)現(xiàn)任何東西。

實(shí)際上，這條理論并不僅僅存在于Picbreeder之中，整個(gè)現(xiàn)實(shí)世界都是這樣運(yùn)作的，所有的復(fù)雜空間都有這個(gè)性質(zhì)，這是一個(gè)非常重要的發(fā)現(xiàn)。

如果我沒有通過外星人的臉發(fā)現(xiàn)那輛車，我就永遠(yuǎn)不可能意識到這一點(diǎn)，也不可能創(chuàng)造出后來的算法，也永遠(yuǎn)不會寫《為什么偉大不能被計(jì)劃》這本書。

當(dāng)然，這也是一個(gè)可以用來理解“開放性”的例子，因?yàn)槟阌肋h(yuǎn)不會知道，你走出的每一步會帶來什么結(jié)果。

?

現(xiàn)在有更多的證據(jù)來證明這條理論。例如，這張圖片中的蝴蝶和頭骨是由隨機(jī)斑點(diǎn)演化而來，各進(jìn)行了74次、和90次迭代。但在另一個(gè)實(shí)驗(yàn)中，我們把生成這些圖片當(dāng)作目標(biāo)，讓15個(gè)孩子通過自主選擇來生成這些圖像，最后經(jīng)歷了3萬次演化才得到了目標(biāo)圖像。這個(gè)結(jié)果是多么的瘋狂。

?

我個(gè)人認(rèn)為，這表明人類在人工智能或機(jī)器學(xué)習(xí)領(lǐng)域的許多基準(zhǔn)文化可能已落入歧途。算法的強(qiáng)大力量，并不在于當(dāng)你真正建立一個(gè)目標(biāo)時(shí)，它們做事情的能力；而在于，當(dāng)你沒有設(shè)定目標(biāo)的時(shí)候，它們做事情的能力。

如果你的目標(biāo)是生成一張蝴蝶、頭骨照片，這個(gè)目標(biāo)會導(dǎo)致你忽略了這些踏腳石，事實(shí)上你更應(yīng)該關(guān)注這些踏腳石，我稱之為目標(biāo)悖論。目標(biāo)悖論的含義是，即擁有一個(gè)目標(biāo)，會妨礙你實(shí)現(xiàn)目標(biāo)。

這里需要澄清一點(diǎn)，目標(biāo)悖論并不是要你沒有目標(biāo)，而是說當(dāng)你沒有目標(biāo)的時(shí)候，更有可能實(shí)現(xiàn)創(chuàng)新。目標(biāo)只會在簡單的、非欺騙性空間里生效，解答容易的問題，有一個(gè)適度的目標(biāo)并沒有錯(cuò)。當(dāng)你放棄目標(biāo)的時(shí)候，你可能會做成偉大的事情，但是你不會提前知道這件事情是什么。

這就是我們面臨的選擇。

這個(gè)世界上，不可能有人在完成一件驚人的事情的同時(shí)又有一個(gè)目標(biāo)。我們希望世界能以這種方式運(yùn)作，但事實(shí)并非如此。這不僅是Picbreeder的運(yùn)作結(jié)構(gòu)，也是現(xiàn)實(shí)世界的運(yùn)作結(jié)構(gòu)。

人類總是在適度的目標(biāo)中成功完成任務(wù)，相信并由此推斷這一思維模式對一切都有成效，這是根本錯(cuò)誤的。覺得每件事兒都會圍繞目標(biāo)運(yùn)作，這是人類文化中產(chǎn)生的一種誤解。

“新奇式搜索算法”和“發(fā)散尋寶”

在發(fā)現(xiàn)這一理論的時(shí)候，我還在研究計(jì)算機(jī)科學(xué)或者人工智能，對這個(gè)發(fā)現(xiàn)的興趣完全是在算法范圍內(nèi)的。我和同事喬爾·雷曼在思考，也許我們可以發(fā)明一種新的算法，讓它以非常反直覺的方式工作，不設(shè)立任何目標(biāo)，我們稱之為“新奇式搜索算法”。

舉個(gè)例子。我們想訓(xùn)練一個(gè)兩足行走機(jī)器人走路，想法是機(jī)器人走得越遠(yuǎn)越能獲得獎勵。傳統(tǒng)機(jī)器學(xué)習(xí)觀念認(rèn)為，必須一小段一小段地走，機(jī)器才能學(xué)會走路。我們的訓(xùn)練理念是讓機(jī)器人做一些與此前不同的事情，想法越新奇越好，這種探索未必是正確的，但只要機(jī)器人采用了一種新方法，就能獲得獎勵。

最后實(shí)驗(yàn)證明，新訓(xùn)練理念的最好結(jié)果要遠(yuǎn)遠(yuǎn)優(yōu)于傳統(tǒng)版本，這種違反人類直覺的結(jié)果令人震驚。學(xué)會走路的機(jī)器人，不一定看起來像在學(xué)走路。

新奇式搜索算法催生出了一個(gè)新的領(lǐng)域，高質(zhì)量多樣性算法。通過把有趣與高質(zhì)量目標(biāo)結(jié)合，找到多樣性選項(xiàng)中的最佳結(jié)果。

?

在一個(gè)非目標(biāo)導(dǎo)向的世界里，人類的本能之一就是想要追隨有趣的事物，因?yàn)橛腥た梢则?qū)動進(jìn)一步探索。

簡單來理解，要想實(shí)現(xiàn)最高目標(biāo)，必須先愿意放棄目標(biāo)。只有當(dāng)我們沒有真正想著這些目標(biāo)時(shí)，或者當(dāng)別人沒有遵循你所謂的正確的道路以及符合你的利益時(shí)，才可能實(shí)現(xiàn)目標(biāo)。

如果人們只做自己認(rèn)為正確的事，就會忽略掉那些真正能幫你解決問題的“踏腳石”，忽略這些能夠奠定偉大基礎(chǔ)的東西。就好比，發(fā)現(xiàn)一張外星人的面孔，為繁衍出汽車圖片奠定了基礎(chǔ)。

從目標(biāo)悖論的角度來看，合作可以導(dǎo)致趨同和共識，但是也將消除通向偉大事物的“踏腳石”。協(xié)作的含義是什么？當(dāng)一群人一起進(jìn)入一個(gè)房間，大家想要達(dá)成某種共識，想要找到某種正確的道路，這就導(dǎo)致了多樣性的缺失，也帶來了妥協(xié)。

?

有時(shí)在組織里不達(dá)成共識也是很重要的，人們必須跟隨直覺，才能到達(dá)某種地點(diǎn)。我稱之為發(fā)散尋寶。尋寶的人只是隨便看，并不知道會找到什么。發(fā)散是因?yàn)槊總€(gè)人都有不同的方向。

這樣的搜索過程沒有目標(biāo)，只是憑直覺在荒野中漫步，去發(fā)現(xiàn)有趣的事物。有人會認(rèn)為我在贊美隨機(jī)性，并非如此，這一過程還是遵循一定原則的。舉個(gè)例子，人們在Picbreeder上選擇圖片不是出于隨機(jī)，而是出于一定的喜好，而你的喜好一定不是隨機(jī)的，而是由你的生活經(jīng)歷決定的。

?

非目標(biāo)導(dǎo)向的演化過程是非常有趣的，比如Picbreeder和新奇式搜索，進(jìn)化和文明可以看作是一個(gè)發(fā)散尋寶的過程，它們也沒有最終目標(biāo)，這才是現(xiàn)實(shí)世界的運(yùn)作方式。

在發(fā)散尋寶的過程，收集“踏腳石”仍然是關(guān)鍵。

舉個(gè)例子，Picbreeder的強(qiáng)大之處在于它運(yùn)行的時(shí)間越長就會出現(xiàn)越多有趣的圖像，這意味著我們可以找到更多有趣的事物。這就是踏腳石，這些圖片不僅可以用來解決具體問題，還能不斷發(fā)散、不斷繁衍，最終繁衍出一個(gè)具有很高價(jià)值的寶藏。

?人工智能時(shí)代應(yīng)該如何創(chuàng)新？

為什么只有不設(shè)定目標(biāo)才更有可能取得驚人的發(fā)現(xiàn)？這就是我們今天一直討論的話題。我想通過《為什么偉大不能被計(jì)劃》這本書，引起整個(gè)社會對這一問題的關(guān)注和討論。

為什么人們要用目標(biāo)來定義每一次偉大的努力？目標(biāo)給我們規(guī)定了每一步，指引我們每一次行動，這種想法無處不在。我個(gè)人認(rèn)為它是有毒的，抑制了創(chuàng)造力。如果人類所做的每一步都是根據(jù)生活中的某個(gè)目標(biāo)來進(jìn)行的、評估的，從出生到退休，那這段時(shí)光太令人窒息了。

IT技術(shù)的進(jìn)步符合這種目標(biāo)導(dǎo)向思維，人類制定性能指標(biāo)，評估其表現(xiàn)，認(rèn)為一切事物都必須向前發(fā)展。但如果我們只獎勵目標(biāo)上的東西，就永遠(yuǎn)不會發(fā)現(xiàn)有趣的技術(shù)。因?yàn)閭鹘y(tǒng)思維帶有一種懲罰失敗的意味。

另一種選擇是獎勵有趣的東西，這種方式會讓一些人不安，但對另一些人而言卻是解放性的。人類擁有的最好技能，就是發(fā)現(xiàn)有趣事物的主觀本能。世界上所有的創(chuàng)新，都是因?yàn)槿祟愑袑τ腥な挛锂a(chǎn)生興趣的本能，它不是隨機(jī)的，而是基于人生經(jīng)驗(yàn)的。

直覺會告訴我們什么是有趣的事物。我們應(yīng)該傾聽并討論有趣的事情，即使討論的一部分是主觀性的。需要再次強(qiáng)調(diào)的是，目標(biāo)導(dǎo)向思維，在某種程度上是成立的，比如那種最有抱負(fù)的目標(biāo)，比如你想變得富有。

20世紀(jì)40年代產(chǎn)生的ENIAC是第一臺計(jì)算機(jī)，這臺計(jì)算機(jī)是怎么產(chǎn)生的？實(shí)際上促使其產(chǎn)生的是真空管。在第一臺計(jì)算機(jī)出現(xiàn)之前，人們已經(jīng)研究真空管150多年了。有趣的是，如果人們直接對計(jì)算機(jī)感興趣而不去研究真空管，人類就不會有真空管和計(jì)算機(jī)。研究真空管的人并未將發(fā)明計(jì)算機(jī)當(dāng)做目標(biāo)，這再次體現(xiàn)了目標(biāo)悖論。

?

再舉一個(gè)商業(yè)案例，二十世紀(jì)七八十年代出現(xiàn)了電唱機(jī)，盒式磁帶、音箱和各種盒式磁帶播放器，之后是隨身聽、CD隨身聽和iPod。iPod是蘋果公司發(fā)布的一種革命性的音樂播放器，但蘋果的目標(biāo)不是作出最好的音樂播放器，iPod成了一塊通往iphone的踏腳石，最終那個(gè)引領(lǐng)性的產(chǎn)品是一部手機(jī)。

避免掉入目標(biāo)悖論，超越狹隘的目標(biāo)局限，這一能力對創(chuàng)新來說至關(guān)重要。

?

有人會好奇，在人工智能時(shí)代應(yīng)該如何創(chuàng)新？從我目前的經(jīng)驗(yàn)來看，考慮到目標(biāo)悖論、目標(biāo)神話以及新奇性搜索算法，我會給大家六點(diǎn)建議。

第一，看到這條路的前景，也要超越眼前的道路。超越的眼光十分重要，我們要超越眼前的路，而不僅僅只關(guān)注是否能走得更遠(yuǎn)。

第二，期待驚喜的出現(xiàn)。世界是具有欺騙性的，驚喜在等待著你，會發(fā)生的可能不會發(fā)生，而不會發(fā)生可能就會發(fā)生。

第三，準(zhǔn)備好接受欺騙。即使看起來是在做正確的事情，結(jié)果也會是錯(cuò)誤的，或者看起來是錯(cuò)的結(jié)果卻是對的。所以，信念非常重要。可能所有人都會覺得你錯(cuò)了，但事實(shí)卻會證明你所專注的事情恰恰是十分正確的。

第四，相信有趣的事物，質(zhì)疑所謂的標(biāo)準(zhǔn)。人們喜歡設(shè)定標(biāo)準(zhǔn)，因?yàn)樗鼈兛梢蕴峁┌踩Ｕ?，這是一種評估形式。但人類社會并沒有給予有趣適當(dāng)?shù)闹匾?，我們?yīng)該相信有趣的事情，換句話說，你需要相信自己的主觀判斷，憑借你自己的人生經(jīng)驗(yàn)。

第五，不要隨波逐流，而要追隨有趣。每當(dāng)有任何抓眼球的事物出現(xiàn)時(shí)，人人都會隨波逐流，但恰恰是那些不起眼的事物才值得我們率先關(guān)注，因?yàn)樗鼈兛赡軙?chuàng)造巨大的價(jià)值。

第六，不起眼的事物可能帶領(lǐng)人們?nèi)サ饺碌念I(lǐng)域，即使當(dāng)下我們未能察覺。這就是生活中人們必須接受的不確定性。

最后，還需要特別注意的一點(diǎn)。追求有趣的事物，并不能保證你一定會做出驚人的成就，你只是有取得成功的可能。所以，你必須學(xué)會接受一定程度的風(fēng)險(xiǎn)。如果你不想在生活中冒險(xiǎn)，就做一些安全簡單的事情，這雖然不會給你帶來偉大的成績，但也能夠讓你取得相對不錯(cuò)的結(jié)果，這只是個(gè)人的選擇而已，無論是否以這種方式成為真正的先驅(qū)，這兩種選擇都是完全可接受的。

標(biāo)簽：