AI迷思 2023.02.14

????????說到了解AI,我突然想起之前那個AI狼抓羊的故事,最初由于迭代間局數太少導致狼選擇一頭撞死而不是吃羊,AI判斷一頭撞死比花時間去吃不一定吃得到的羊扣的分少所以還不如一頭撞死。這是一個很有意思的結果,意料之外情理之中還非常合乎邏輯,有沒有什么辦法解決這個問題讓AI以我們希望的方式解決問題呢?
????????故事的后續(xù)通過增加每次迭代間的局數和調整算法解決了問題,但是還有一種更簡單有效的方法,即增加存活時間影響分數的規(guī)則,存活時間低于一定程度直接扣大分,那么AI就算要自殺也會混過這個最低存活時限,在混這個時限的時候說不定就會抓到羊,迭代幾次說不定就會正常抓羊以至于這個最低存活時限的規(guī)則就失去了它的作用。
????????用這個邏輯去套,很多人覺得AI一開始一頭撞死的選擇像極了人類擺爛,我覺得不盡然,如果你覺得像,為什么擺爛的人不像AI一樣直接選擇辭職而僅僅是在自己的工作崗位上混日子不求上進不期望抓羊呢?這分明和加了最低存活時限后的情況更像。

????????我們改一下規(guī)則,假設AI只能存活100年,初始分數3,153,600,000分,每存活1秒扣1分,死亡直接扣5,000,000,000分,讓AI去盡可能獲得更高分數,這種情況下AI會怎么做呢?我們可以試著思考一下。
????????一頭撞死肯定是不會的,因為就算出生就撞死分數也會是負的,一直活到死就算一只羊不吃也只會是0分,所以絕對不要撞死會成為AI的首要目標。
????????接著來抓羊,可以控制的細節(jié)就更多了,假如抓到羊的概率很高,每只羊的分數也很高,那AI抓羊的積極性肯定也會很高,假如抓到羊的概率很低,每只羊的分數也很低,那AI抓羊的積極性肯定也會很低,但AI肯定還會抓羊,因為在等死的過程中只要抓到羊就會增加分數,以AI絕對理性的判斷而言不管如何只要有一絲抓到羊的希望AI就會去抓羊。
????????我覺得這個結果不是很理想,沒有我想要的擬真效果,無論如何AI都不會選擇一頭撞死似乎有些無趣,得想辦法讓戲劇性再強一點。

????????還是假設AI只能存活100年,初始分數3,153,600,000分,每存活1秒扣1分,但沒有死亡扣大分的設定,換成只要存活每秒都有可能隨機增加一定分數,然后讓AI去盡可能獲得更高分數,這種情況下AI會怎么做呢?我們可以試著思考一下。
????????理性如AI肯定會做一個期望分析,假設每秒有100%概率獲得2分,那么存活時間越久分越高AI肯定選擇存活哪怕什么都不做;假設每秒有50%概率獲得2分,那么算下來存活時間越久分數越傾向于不增不減;假設每秒有1%概率獲得2分,那么算下來存活時間越久越虧,AI肯定會傾向于撞死;假設每秒有1%概率獲得200分,雖然算下來存活時間越久越賺但概率有點小了,換成每秒有0.01%概率獲得20,000分則更甚,AI肯定會權衡收益。
????????這就像自己送上門的羊。
????????對于這個結果我依然覺得不是很理性,有點賭博的成分,對于AI這種絕對理想的計算邏輯結果還是相對確定,依然戲劇性不太足。

????????經過多次嘗試,我們修改了很多參數,最終獲得了充滿戲劇性的結果,把大堆AI放在一個環(huán)境里一起迭代,每個AI的具體規(guī)則和參數有些區(qū)別。
????????AI的存活時間不盡相同,有些能活200年,有些能活100年,有些能活50年,有些只能活10年;
????????AI的初始分數不盡相同,有些初始10,000,000,000分,有些初始3,153,600,000分,有些初始1,000,000分,有些初始1分;
????????AI死亡的分數變化不盡相同,有些死亡不扣分,有些死亡扣1分,有些死亡扣3,153,600,000分,有些死亡扣10,000,000,000分;
????????AI存活的隨機分數獎勵不盡相同,有些每秒100%概率獲得1,000分,有些每秒50%概率獲得2分,有些每秒1%概率獲得1分,有些每秒100%概率扣10分;
????????AI抓羊的能力不盡相同,有些每秒100%概率能抓到,有些每秒10%概率能抓到,有些每秒1%概率能抓到,某些每秒0.01%概率能抓到;
????????AI抓到的羊分數不盡相同,有些抓到羊增加10,000,000,000分,有些抓到羊增加3,153,600,000分,有些抓到羊增加1,000,000分,有些抓到羊增加1分;
????????AI對自身參數的認知不盡相同,有些AI以為自己抓到羊的概率是每秒1%其實是50%,有些AI以為自己抓到羊的概率是每秒100%其實是0.01%,有些AI以為自己抓到的羊分數是1,000,000分其實是1分,有些AI以為自己抓到的羊分數是1,000分其實是1~10,000,000,000分隨機;
????????AI對羊的認知不盡相同,有些認為羊是無限的豐富的會刷新的,有些認為羊是有限的匱乏的不會刷新的;
????????AI對AI的認知不盡相同,有些認為有很多AI和自己一起抓羊,有些認為只有自己一個AI在抓羊;
????????…………
????????由于參數差異,AI迭代訓練出來的后的行為也各種各樣,完美符合我充滿戲劇性的期望,某些AI由于存活的分數期望是負的所以選擇一頭撞死,但因為其初始分數比某些存活幾十年存活的分數期望是正的的AI一直抓羊抓到死的分數都還高所以在積分榜里排在前列,某些AI迭代幾次后發(fā)現無論如何因為自身參數問題都不可能獲得很高的分數所以雖然可以在積分榜里小幅提高排名但還是選擇一頭撞死,某些AI發(fā)現雖然自身很多參數不行但存活時間的隨機獎勵和抓到羊的獎勵可以搏一搏于是選擇瘋狂存活瘋狂抓羊,等等行為不勝枚舉。
????????迭代久了,稍顯乏味,于是我又給AI們增加了新的規(guī)則和參數。對于那些期望低選擇撞死的AI我選擇修改它的目標,不在以分數為唯一目的,將存活時間也納入考量,或者不將其分數計入積分榜,只要求其挑戰(zhàn)自己獲得更高分數。對于抓羊積極性低的AI我增加了一些規(guī)則,比如除了抓羊也可以從別的AI身上奪取部分分數,比如自身周圍只要存在別的AI就可以在那些AI抓到羊時竊取部分分數,比如可以控制別的AI給自己抓羊,比如可以阻止別的AI抓羊,如此這般。
????????整個場面就變得更加歡樂了。

????????說了這么多似乎有點跑題,我想表達的其實一句話就可以總結,你以為AI很復雜其實很簡單,你只是沒有搞清楚AI得出這個結果的邏輯和它所參考的規(guī)矩和數據罷了。
????????但其實復雜對于很多人來說就是根本問題。
????????我也覺得從AI抓羊選擇一頭撞死這個現象去分析一些哲學問題社會問題是很傻〇很弱〇的行為。