策略分析例子:選數(shù)比大小
甲和乙進行對局。
規(guī)則很簡單:甲和乙同時選擇一個0和1之間的數(shù)字,分別記為X和Y。雙方進行決策后,系統(tǒng)生成一個0到1之間的隨機數(shù)(均勻分布),記為Z。
勝負規(guī)則(以及效用):若X>Z則認為甲“爆了”,若Y>Z則認為乙“爆了”。若雙方都爆了,則視為平局;若一方爆了,則沒爆的一方贏;若都沒爆,則寫出較大的數(shù)的一方贏,若相同則視為平局。贏者效用+1,輸者效用-1,平局時雙方效用為0。
直覺分析
從感覺上來說,寫較大的數(shù)是不明智的——容易爆,此時要么輸要么平,不利。
寫較小的數(shù)可能也不太好——只要對方?jīng)]爆基本就輸了。
視對方策略為概率分布
我們站在甲方的立場,但假設(shè)Y的分布已知(換言之,對任意
都已知)。
這種情況下,我們?nèi)绻M行決策,我們的期望效用等于
,
這是直接根據(jù)游戲規(guī)則所列出的表達式(若Y<Z<X則甲負,若Y<X<Z則甲勝,若X<Z<Y則甲勝,若X<Y<Z則甲負)。我們暫時忽略了X=Y的可能性。除非乙的策略包含單點的概率質(zhì)量,否則這一假設(shè)是合理的。
我們可以將期望效用進行化簡。計算可得甲方期望效用為
,
我們暫時假定對
連續(xù)可微(我們之后會發(fā)現(xiàn)這并不成立,但我們先這么去算)。將上視關(guān)于
求導可得
如果乙方的混合策略給定,我們可以通過求上式的零點來計算甲方的最優(yōu)應(yīng)對策略。
立場轉(zhuǎn)換
現(xiàn)在我們轉(zhuǎn)而站在乙方的立場。我們暫且給乙方一個看似不公平的規(guī)則:乙方必須將自己的混合策略告訴甲方。我們必須慎重選擇策略,才能讓甲方無機可乘(即使甲方知曉乙方策略)。
一種直覺的想法是,乙方選擇策略后,甲方不論如何決策,期望效用都一樣。這種情況下,上一節(jié)的,也即
兩邊積分,并且利用邊界條件可解得
但這個解明顯是有問題的。事實上,如果,上式計算出來的概率將大于1,這是不合理的。不過,以此為啟發(fā),我們可以考察這個分布:
可以驗算,如果乙采取這一策略體系,當甲進行決策時,如果
,則
如果
,則
。換言之,乙只要遵循這一策略,甲便無機可乘。對稱地,如果甲遵循這一策略,則乙也無機可乘。
劣勢策略和納什均衡
我們發(fā)現(xiàn),雙方都按照上述策略進行決策構(gòu)成整個雙人零和游戲的納什均衡點。換言之,任何一方即使知曉對方的混合策略,也無法通過改變自身策略來獲得利益。但是如果自身策略不當,則會帶來損失。
在這個博弈當中,如果自己的策略中,超出的概率不是
,就會面對以上解出的均衡策略有所損失。這種策略稱為劣勢策略(至少在對抗均衡策略的情況下,相對于均衡策略而言,是劣勢的)。
如果自己遵循納什均衡策略,則對方無法剝削自己,而自己能夠剝削有劣勢策略的玩家;
如果自己遵循納什均衡策略,而對方無劣勢策略,則期望意義下雙方持平;
如果自己不遵循納什均衡策略,則對方有可能可以剝削自己。
啟發(fā)
盡管本例子中的簡單模型遠不足以囊括我們在各種游戲中需要進行決策的場合,但至少我們可以認識到以下幾點:
1,也許雙方的各個決策之間存在著循環(huán)克制關(guān)系,但通過適當?shù)母怕式M合,是可以在期望意義下保障一個底線收益的。至于底線收益具體是多少,則和具體的游戲規(guī)則有關(guān)。
2,一定條件下,零和博弈對于雙方的底線收益相加應(yīng)當為0。事實上,馮諾依曼證明過。用人話來說,就是:任何雙方的單步的、有限種決策的、每對決策的結(jié)果效用明確的零和博弈,都存在至少一對雙方的納什均衡混合策略。雖然本文的例子當中的決策集不是有限的,但依靠較深的泛函分析理論依然可以建立類似馮諾依曼等式的結(jié)論。本文并未討論一般的結(jié)論,只是對于具體的例子,將納什均衡顯式地解出來了(事實上求解的過程并不嚴謹,只不過可以“先猜測,后驗證”以證明我們的結(jié)果確實是混合納什均衡解)。
3,劣勢策略是可能存在的,但如果不對一個游戲進行精細的分析,我們難以先驗地判斷哪些策略是劣勢策略。如果我們用了劣勢策略,對方甚至不需要知道我們的策略體系,也能用納什均衡對我們進行剝削。