囚徒困境的數(shù)理化解釋與延展思考
在正式更新春分劇情解析之前,我們先補(bǔ)充一個(gè)關(guān)于囚徒困境的知識(shí),當(dāng)然不僅僅這期視頻用得到,其他時(shí)候也可以借用這個(gè)模型來思考一些問題??偠灾€是非常有趣的。
囚徒困境是一個(gè)經(jīng)濟(jì)學(xué)和博弈論名詞,是研究多個(gè)理性人在面對(duì)一個(gè)問題是采取的行動(dòng)以及所產(chǎn)生的影響的問題。今天我們就從二維囚徒困境的數(shù)理化證明逐步擴(kuò)展,來進(jìn)行更進(jìn)一步的社會(huì)抽象思考。
?
我們首先看最經(jīng)典的囚徒困境。兩個(gè)犯人面對(duì)警察的詢問,可以選擇招供和不招供。他們同時(shí)招供時(shí)都會(huì)被判入獄。一個(gè)人招供一個(gè)人不招供時(shí),招供者將因?yàn)橹鲃?dòng)合作大大縮短刑期,而不招供者會(huì)因?yàn)榈仲嚩又匦唐凇6疾徽泄﹦t會(huì)因?yàn)樽C據(jù)不足而得到釋放。

一眼看下來,大家都會(huì)覺得兩者選擇都不招供顯然是最優(yōu)解。但是囚徒困境的推導(dǎo)卻告訴我們他們最后都會(huì)選擇招供。下面用純粹邏輯的方式來證明。
假設(shè)二者都是理性人,都能夠?yàn)榱俗陨淼睦娑硇缘男袆?dòng),那么現(xiàn)在二者面臨兩個(gè)選擇,招供和不招供。如果招供,無論對(duì)方選擇招供還是不招供,他最多面臨正常的刑期。而如果他選擇不招供,則對(duì)方的選擇可能導(dǎo)致自己刑期加長(zhǎng),也可能導(dǎo)致自己無罪釋放。面對(duì)不確定性,我們不對(duì)二者的性格做出假設(shè),我們假設(shè)是最純粹的理性人,也就是風(fēng)險(xiǎn)厭惡型,所以他們會(huì)選擇招供。
而又因?yàn)樗麄兪抢硇匀?,所以他們能夠推理出?duì)方也會(huì)這么選,如果自己選擇不招供,那么就完蛋了。因此自己只能選擇招供。
這實(shí)際上就是納什均衡,即我們知道對(duì)方做出的選擇之后做出的選擇就是雙方的平衡點(diǎn),注意這里的雙方都是可以互相轉(zhuǎn)換的,對(duì)等的,所以我們得出了這個(gè)結(jié)論。
純粹邏輯的推到可能有些繞,一下子看不懂,接下來我們用一些數(shù)字進(jìn)行推到。

除此之外,我們?cè)谝敫怕剩此麄兺茰y(cè)對(duì)方做出這個(gè)選擇的概率有多大。我們先從簡(jiǎn)單的出發(fā),二者都假設(shè)對(duì)方做出兩個(gè)選擇的概率是50%,即:

那么我們就能算出二者的收益期望。
如果A(B)選擇招供:7*50%+2*50%=4.5年
如果A(B)選擇不招供:15*50%+0*50%=7.5年
從期望來說,選擇招供能夠獲得更高的收益。
那么我們?cè)俪橄笠稽c(diǎn),將收益和概率參數(shù)化:

我們?cè)儆?jì)算他們的期望:
如果A(B)選擇招供:E1=a*p%+c*q%
如果A(B)選擇不招供:E2=b*p%+d*q%
那么當(dāng)這些參數(shù)達(dá)成什么樣的條件的時(shí)候他們能夠達(dá)成理性合作呢?
①假設(shè)刑期變化,概率還是最簡(jiǎn)單的五五開:
當(dāng)a-b>d-c時(shí),有E2<E1,即雙方選擇都不招。
但是又由條件易知b>a,所以條件要成立必須要c>d才有可能,即都不招供的時(shí)候面臨的處罰比背叛獲得的懲罰還要輕。不僅如此,當(dāng)對(duì)方招供的時(shí)候忠誠(chéng)的代價(jià)要小于對(duì)方不招供時(shí)背叛的收益。
如果我們用數(shù)字舉例子,就能看到:

此時(shí)如果A(B)選擇招供,他的期望是6年刑期,而選擇不招供的刑期只有4年。從理性人角度出發(fā)他應(yīng)該選擇不招供。
?
②假設(shè)刑期不變,概率發(fā)生變化:
當(dāng)p/q>(d-c)/(a-b)時(shí),有E2<E1,即雙方選擇都不招。
又由條件知道一般來說b>a c>d,且b-a>c-d,所以只有當(dāng)q>p,也就是對(duì)方選擇不招供的幾率更大的時(shí)候他們才能做出這種決策。
帶入到我們之前的例子,我們能算出雙方招和不招要到二八開以上才能做出都不招供的決策。而二八開的時(shí)候才是兩個(gè)期望剛剛相等的時(shí)候。
所以我們看到囚徒困境并不是無解的,也不是什么心理學(xué)人性喜歡背叛,而是一個(gè)實(shí)打?qū)嵉氖找鎲栴}。也就是說當(dāng)利益的驅(qū)使或者是懲罰的威脅足夠大的時(shí)候,人們當(dāng)然愿意合作。而這就推導(dǎo)出一個(gè)結(jié)論。
要想使得囚徒困境走向合作就需要利益足夠大或者懲罰足夠大。
而一般來說囚徒困境的起點(diǎn)都是合作收益雖然很大,但是背叛收益更大,都不合作雖然收益不大但是也過得去。
比如說公交車專用道的設(shè)立。如果大家都不走專用道,就是走向合作,那么有部分人會(huì)因?yàn)楣卉嚫颖憷艞壥褂盟郊臆嚦鲂?,使得道路條件得到改善。如果少部分人走專用道大部分人遵守規(guī)則,那么小部分人就能享受極高的收益,其他人都在堵車的時(shí)候他們能夠暢通無阻。如果大家都占用專用道,就相當(dāng)于路變寬了一條道,能夠?qū)Χ氯鸬揭欢ǖ木徑庾饔?,但是同時(shí)又讓更多的人選擇私家車,所以最后收益是正是負(fù)還不好說。
不僅如此,剛剛我們探討的只是只有兩個(gè)參與者的情況,當(dāng)參與博弈的人數(shù)上升到3,4,5,乃至n個(gè)人,又該怎么辦?只要有一個(gè)人打破規(guī)則那么就會(huì)使得大家都打破規(guī)則選擇不合作。而那么多個(gè)人里面有一個(gè)人打破規(guī)則實(shí)在是太簡(jiǎn)單了。
所以走出囚徒困境的唯一辦法就是改變博弈矩陣。而改變矩陣的方法有兩種。一種內(nèi)部一種外部的。
外部因素很簡(jiǎn)單,就是加大對(duì)于背叛的懲罰。比如說犯人雙方約定只要誰背叛,那么各自有權(quán)可以找人殺背叛者全家。對(duì)于公交車專用道來說就是私家車駛?cè)刖涂鄯至P款,使得背叛的收益非但不是正還是負(fù)的。
內(nèi)部因素相對(duì)難以形成,就是改變對(duì)方選擇的概率。比如犯人雙方是同生共死的雙胞胎兄弟,對(duì)對(duì)方無條件信任,那么對(duì)于雙方來說對(duì)方選擇合作的概率就是100%,這樣選擇合作的概率也是100%。對(duì)于社會(huì)來說,就是形成公序良俗和道德約束。比如在大街上裸奔只會(huì)面臨很少量的行政處罰,但是對(duì)于一個(gè)理智正常的社會(huì)人來說,在好友親人面前社死的代價(jià)更加可怕,所以現(xiàn)代社會(huì)沒人會(huì)在大腦清醒的情況下到大街上裸奔,即便裸奔很爽。
除了外力干涉和社會(huì)生活環(huán)境變好以外,無限期囚徒困境也可能會(huì)催生內(nèi)部因素的形成。也就是當(dāng)雙方進(jìn)行無數(shù)輪囚徒困境博弈之后,就會(huì)發(fā)現(xiàn)自己雖然背叛能夠保證自己不吃虧,但是總體而言相比合作還是損失很大。因此如果雙方能夠交流就會(huì)開始初步談判,形成合作機(jī)制,即便雙方不能交流。只要有人率先拋出善意的橄欖枝,在某一局選擇合作吃點(diǎn)虧,那么對(duì)方作為理性人很有可能會(huì)接過這個(gè)橄欖枝。畢竟之前已經(jīng)經(jīng)歷過無數(shù)輪,所以吃點(diǎn)小虧又怎么樣呢。
而內(nèi)部因素的形成一方面是需要長(zhǎng)期的監(jiān)管和控制使得規(guī)則深入人心,另一方面是社會(huì)生活條件的進(jìn)步使得不合作的收益變小。
舉幾個(gè)簡(jiǎn)單的例子。
對(duì)于各位的爺爺奶奶一輩的人來說,他們絕大多數(shù)經(jīng)歷過饑荒,經(jīng)歷過物質(zhì)極端匱乏的年代,所以他們對(duì)于食物和錢有著一種近乎偏執(zhí)的瘋狂。而對(duì)于絕大多數(shù)的年輕人,城市里的年輕人來說,對(duì)于饑荒和餓肚子沒有什么概念。所以如果設(shè)立食物共享站,那么年輕人選擇合作的概率將遠(yuǎn)遠(yuǎn)大于老年人,因?yàn)槎咚?jīng)歷的社會(huì)環(huán)境使得他們的博弈矩陣是不一樣的。
同樣,對(duì)于公交車排隊(duì),現(xiàn)在絕大多數(shù)城市的公交車沒有檢票員沒有引導(dǎo)員負(fù)責(zé)看看有沒有人逃票有沒有人插隊(duì)。因?yàn)殡S著社會(huì)的富足和長(zhǎng)期的管理和觀念灌輸,守秩序的社會(huì)風(fēng)氣已經(jīng)形成。所以面對(duì)公交車逃票和插隊(duì)的囚徒困境,不需要外力干涉來促使合作局面的達(dá)成。
而對(duì)于無限輪博弈導(dǎo)致的規(guī)則和秩序則可以參照人類文明的演化過程。最開始的部落之間在面對(duì)和平——戰(zhàn)爭(zhēng)的囚徒困境之中都會(huì)選擇戰(zhàn)爭(zhēng),因?yàn)榇蜈A了就能獲得對(duì)方的一切,無論是財(cái)產(chǎn)還是人口,而選擇和平只能任人宰割。但是經(jīng)歷過漫長(zhǎng)的歷史過程,在幾千上完年近乎無限輪囚徒困境博弈之后,大家都明白打來打去實(shí)在是沒什么好處,今天剛搶來的明天就有可能被搶。因此超越血緣和氏族的聯(lián)合開始出現(xiàn),社會(huì)逐漸演化,并發(fā)展出規(guī)則來維護(hù)合作局面。這實(shí)際上就是國(guó)家誕生的開始。而在資本主義社會(huì)發(fā)展過程中,壟斷大亨所面臨的囚徒困境最終也導(dǎo)向了巨頭聯(lián)盟,共同瓜分社會(huì),形成了寡頭合作的帝國(guó)主義社會(huì)。直到社會(huì)主義運(yùn)動(dòng)對(duì)寡頭聯(lián)盟形成了強(qiáng)烈沖擊,才使得反壟斷法等法規(guī)出現(xiàn)。
那么在更新視頻之前,留給大家一個(gè)思考,在明白了囚徒困境運(yùn)作原理的情況下,大家覺得惡行不斷滑坡,最后越滾越大可能嗎?謀善村真的可能止步于一次簡(jiǎn)單的騙保而不會(huì)做出下一步舉動(dòng)嗎?