一個經(jīng)典問題的博弈論分析
這是一個挺有名的節(jié)目片段,涉及兩個人分獎金的策略。關(guān)于這個片段的討論和發(fā)散可以搜到很多,不過大部分都不是很嚴(yán)格,只局限于口頭上的定性論證。本文稍微定量地分析一下這個博弈(以下視頻的1p)

場景是這樣的:Ibrahim和Nick在這個游戲節(jié)目的最終輪通過博弈決定獎金的分配(總獎金記為單位1)。兩人各自選擇split或者steal,如果同時split則各自分到一半,同時steal則都拿不到獎金,一人split一人steal則由steal的人獨吞。
這是一個經(jīng)典的囚徒困境,兩個人的理性選擇都是steal,最終結(jié)果就是全都拿不到獎金。理論上雙贏的情況是兩人合作選split,這樣都可以拿到一半;但這個策略是不穩(wěn)定的,其中任何一個人都可以通過臨時反悔選steal來獨吞所有獎金。
但這個節(jié)目和簡單的囚徒困境的區(qū)別在于,兩個參賽者有一段自由討論的時間,在討論階段,兩個人可以提出合作,可以撕破臉,可以虛張聲勢欺騙對方,等等。這個討論階段就為博弈引入了復(fù)雜性,并且導(dǎo)致最終的納什均衡有機會逃離囚徒困境。
具體來說,在這個片段里面,Nick采取的策略就是,向Ibrahim聲明:1.自己一定會選steal(注意是steal而不是split;大部分人都會提議雙方一起split,這里Nick屬于另辟蹊徑,所以觀眾都懵圈了);2.如果自己拿到全額獎金,在節(jié)目結(jié)束后一定會分給Ibrahim一半。當(dāng)然,這兩個聲明沒有任何實際約束力或者法律效力,只是純粹的空談。實際上Ibrahim也確實非常懷疑Nick,并且非常努力地想讓Nick改變想法選擇split,但Nick非常堅定,只好作罷。
最終選球的結(jié)果非常出人意料:兩個人都選擇了split,達(dá)到雙贏的結(jié)果。下面就來定量地分析一下,為什么會有這樣的結(jié)果?
為了簡單起見,我們不考慮雙方在討論階段的博弈(即,不討論他們是否有動機去提出合作/欺騙對方,等等),而只關(guān)心討論階段(視為給定)對最終選擇這個靜態(tài)博弈的影響。
具體到這個視頻,在討論階段,Nick給Ibrahim引入了兩個方面的不對稱信息:1.“我聲明自己會選steal,但也有可能食言”;2.“我聲明自己贏后會分給你一半,但也有可能食言”。這樣,最終選球的博弈就從一個普通的正則形式博弈變成了貝葉斯博弈。
為了盡可能保持一般性,我們從偏好開始建立一整套模型。
我們假設(shè)Ibrahim的偏好是,其中
是
上所有概率測度的集合。我們假設(shè)這個偏好是理性、連續(xù)的,并且滿足獨立性公理,從而有Von Neumann–Morgenstern期望效用表示,其對應(yīng)Bernoulli效用記為
。
類似地,我們假設(shè)Nick的偏好是,其中
是
上所有概率測度的集合。其中,H代表不食言,F(xiàn)代表食言。我們引入H和F是因為,Nick不僅在選擇最終贏到的錢,也在選擇自己是否食言,而通常來說保持誠信會在心理上給人正向的激勵。當(dāng)然,這個模型并不排除Nick完全沒有食言的心理負(fù)擔(dān)的可能,它允許任何可能的偏好。同樣,我們假設(shè)這個偏好是理性、連續(xù)的,并且滿足獨立性公理,從而有Von Neumann–Morgenstern期望效用表示,其對應(yīng)Bernoulli效用記為
。為了之后標(biāo)記簡單起見,我們把這兩個函數(shù)重新記為
。
現(xiàn)在進(jìn)入不對稱信息的刻畫。Ibrahim不知道Nick的兩方面信息:1.有多大的傾向選擇守信選擇steal(用效用函數(shù)上的隨機性刻畫);2.有多大概率分一半獎金。我們假設(shè)這個整體的后驗測度在分一半獎金上的邊緣概率為,而條件于“分一半”(S)/“不分”(K)上的效用函數(shù)的條件分布分別為
和
。這樣Ibrahim的不完全信息的完整測度就刻畫出來了。這個測度是在討論過程中形成的。
至于Nick對于Ibrahim的不完全信息,其實可以看作是沒有的,因為Ibrahim屬于談判中的被動方,并沒有主動引入關(guān)于自己的不對稱信息。不過,因為我們把Nick的效用函數(shù)的不確定性引入了模型,那么公平起見,就不妨把Ibrahim的效用函數(shù)不確定性也引入進(jìn)來。當(dāng)然,這個不確定性沒有本質(zhì)影響。我們把它記為。
這兩個測度實際上定義得有點隨便,畢竟函數(shù)空間上的測度并不是一件平凡的事情,通常需要用有限維去擴張形成。不過這里就假裝它們都是良定義的好了。
在模型設(shè)定好之后,納什均衡就可以直接定義出來了(我們用C表示cooperate即split,D表示defect即steal。具體的U的形式?jīng)]有寫出來,讀者感興趣的話可以按節(jié)目本身的設(shè)定把它的具體表達(dá)式補足):
這三個方程看起來有點麻煩,包含了一堆泛函。當(dāng)然,完全的求解大概也是不可能的。不過有一個好消息:我們可以找到它的一個特解:
讀者要是感興趣的話,驗證這個特解符合定義還是挺簡單的。然后我們可以看看這個特解到底說了什么:如果Nick確實打算誠實地平分他的一半獎金,但是在自己會選擇steal這件事上刻意說謊了;而Ibrahim則在討論過程中形成了這樣的后驗認(rèn)知:Nick確實有一定的正概率選擇平分獎金,并且也有足夠大的概率選擇steal——那么最終,兩個人都選擇split確實是一個可能的納什均衡。這就確實地解釋了視頻里最終兩人的選擇。
當(dāng)然,讀者可能會想,這畢竟只是無數(shù)納什均衡中的一個(對于這個模型,確實有無數(shù)個納什均衡),為什么它就是最終被實現(xiàn)的那個?假如納什均衡只有一個,那解釋力就更強了。下面我們給出一個簡化版的模型,在這個簡化版的模型里,兩人都選擇split確實是幾乎唯一的納什均衡。
簡化版的模型:首先,Ibrahim身上效用的不確定性直接扔掉好了;其次,我們假設(shè)Nick身上的效用符合這樣一個簡化條件:
即,選擇誠信和選擇食言之間,有一個固定的常數(shù)效用差值。這樣就把系統(tǒng)的自由度從無窮個縮減到了兩個(h和)。
的定義和前面一樣,而h的后驗分布(條件于平分/不平分上)則分別用
這兩個cdf來表示。這樣一來,模型就清爽了很多。納什均衡的條件也簡化成了(一樣,u的具體表達(dá)形式略去,它由節(jié)目規(guī)則本身定義):
這么一個方程組其實是可以完全求解的。具體過程就不寫出來了,總共有6個可能的解,這6個解是互相之間無法完全共存的。特別地,當(dāng)以下參數(shù)條件被滿足時:
這個系統(tǒng)只有唯二的兩個納什均衡:
它的直觀意義就是:Ibrahim只能選擇split;而Nick確實打算誠實地平分他的一半獎金,但是在自己會選擇steal這件事上刻意說謊了,因此選擇split或者steal(此時兩個選擇對他沒有區(qū)別,因為他確實打算平分)。無論如何,Ibrahim的最佳選擇都被強行挪動到split。紅色的這個條件就是Nick在討論過程中必須達(dá)到的目標(biāo):只要他把Ibrahim的后驗認(rèn)知修改為符合紅色的這串條件,那么Ibrahim就只能不得不選擇split。這也是Nick在討論中(假裝)非常堅持自己一定要選steal絕不動搖的原因,因為只有這樣才能讓Ibrahim的后驗認(rèn)知偏移到滿足標(biāo)紅條件的區(qū)域。
對這串標(biāo)紅條件的分析還是挺有意思的。比如說,我們可以看出,必須要大于0,也就是說,Nick必須要讓Ibrahim相信自己有正概率平分,無論這個正概率有多??;同時,Nick也需要讓Ibrahim相信自己以正概率存在正的道德負(fù)擔(dān),也就是至少需要有那么一點不是“完全欺騙”的概率;這兩個“正概率”還有一定的trade-off,一個小的話另一個必須大,反之亦然;最后,我們還可以看出,如果雙方越是厭惡風(fēng)險,那么就越傾向于達(dá)成split-split這個雙贏的合作場面。
總的來說,這個例子展示了通過引入不對稱信息來規(guī)避囚徒困境的一種可能性,還是挺有意思的。