最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

策略分析例子:選數(shù)比大小

2022-02-10 17:31 作者:桌游小黃鴨  | 我要投稿

甲和乙進行對局。

規(guī)則很簡單:甲和乙同時選擇一個0和1之間的數(shù)字,分別記為X和Y。雙方進行決策后,系統(tǒng)生成一個0到1之間的隨機數(shù)(均勻分布),記為Z。

勝負規(guī)則(以及效用):若X>Z則認為甲“爆了”,若Y>Z則認為乙“爆了”。若雙方都爆了,則視為平局;若一方爆了,則沒爆的一方贏;若都沒爆,則寫出較大的數(shù)的一方贏,若相同則視為平局。贏者效用+1,輸者效用-1,平局時雙方效用為0。

直覺分析

從感覺上來說,寫較大的數(shù)是不明智的——容易爆,此時要么輸要么平,不利。

寫較小的數(shù)可能也不太好——只要對方?jīng)]爆基本就輸了。

視對方策略為概率分布

我們站在甲方的立場,但假設(shè)Y的分布已知(換言之,%5Cmathbb%7BP%7D%5Cleft(Y%3Ct%5Cright)對任意t都已知)。

這種情況下,我們?nèi)绻M行決策X%3Dx,我們的期望效用等于

%5Cint_0%5Ex1d%5Cmathbb%7BP%7D%5Cleft(Y%3Cy%5Cright)%5Ccdot%5Cleft(%5Cint_y%5Ex(-1)dz%20%2B%20%5Cint_x%5E11dz%5Cright)%2B%5Cint_x%5E1%201d%5Cmathbb%7BP%7D%5Cleft(Y%3Cy%5Cright)%5Ccdot%5Cleft(%5Cint_x%5Ey%201dz%20%2B%20%5Cint_y%5E1(-1)dz%5Cright),

這是直接根據(jù)游戲規(guī)則所列出的表達式(若Y<Z<X則甲負,若Y<X<Z則甲勝,若X<Z<Y則甲勝,若X<Y<Z則甲負)。我們暫時忽略了X=Y的可能性。除非乙的策略包含單點的概率質(zhì)量,否則這一假設(shè)是合理的。

我們可以將期望效用進行化簡。計算可得甲方期望效用為

U(x)%3D%5Cint_0%5Ex1d%5Cmathbb%7BP%7D%5Cleft(Y%3Cy%5Cright)%5Ccdot%5Cleft(1-2x%2By%5Cright)%2B%5Cint_x%5E1%201d%5Cmathbb%7BP%7D%5Cleft(Y%3Cy%5Cright)%5Ccdot%5Cleft(-1%2B2y-x%5Cright),

我們暫時假定%5Cmathbb%7BP%7D%5Cleft(Y%3Ct%5Cright)t連續(xù)可微(我們之后會發(fā)現(xiàn)這并不成立,但我們先這么去算)。將上視關(guān)于x求導可得

U'(x)%3D(1-x)%5Cfrac%7Bd%7D%7Bdx%7D%5Cmathbb%7BP%7D(Y%3Cx)%2B%5Cint_0%5Ex1d%5Cmathbb%7BP%7D%5Cleft(Y%3Cy%5Cright)%5Ccdot%5Cleft(-2%5Cright)-(-1%2Bx)%5Cfrac%7Bd%7D%7Bdx%7D%5Cmathbb%7BP%7D(Y%3Cx)%2B%5Cint_x%5E1%201d%5Cmathbb%7BP%7D%5Cleft(Y%3Cy%5Cright)%5Ccdot%5Cleft(-1%5Cright)%5C%5C%3D2(1-x)%5Cfrac%7Bd%7D%7Bdx%7D%5Cmathbb%7BP%7D(Y%3Cx)-1-%5Cmathbb%7BP%7D(Y%3Cx)%2C

如果乙方的混合策略給定,我們可以通過求上式的零點來計算甲方的最優(yōu)應(yīng)對策略。

立場轉(zhuǎn)換

現(xiàn)在我們轉(zhuǎn)而站在乙方的立場。我們暫且給乙方一個看似不公平的規(guī)則:乙方必須將自己的混合策略告訴甲方。我們必須慎重選擇策略,才能讓甲方無機可乘(即使甲方知曉乙方策略)。

一種直覺的想法是,乙方選擇策略后,甲方不論如何決策,期望效用都一樣。這種情況下,上一節(jié)的U'(x)%5Cequiv0,也即

%5Cfrac%7Bd%5Cmathbb%7BP%7D(Y%3Cx)%7D%7B1%2Bd%5Cmathbb%7BP%7D(Y%3Cx)%7D%3D%5Cfrac%7Bdx%7D%7B2(1-x)%7D%2C

兩邊積分,并且利用邊界條件%5Cmathbb%7BP%7D(Y%3C0)%3D0可解得

%5Cmathbb%7BP%7D(Y%3Cx)%3D(1-x)%5E%7B-0.5%7D-1%2C

但這個解明顯是有問題的。事實上,如果x%3E0.75,上式計算出來的概率將大于1,這是不合理的。不過,以此為啟發(fā),我們可以考察這個分布:

%5Cmathbb%7BP%7D(Y%3Cx)%3D%5Cmin%5Cleft((1-x)%5E%7B-0.5%7D-1%2C1%5Cright)%2C

可以驗算,如果乙采取這一策略體系,當甲進行決策X%3Dx時,如果x%5Cleq0.75,則U(x)%3D0%3B如果x%3E0.75,則U(x)%3C0。換言之,乙只要遵循這一策略,甲便無機可乘。對稱地,如果甲遵循這一策略,則乙也無機可乘。

劣勢策略和納什均衡

我們發(fā)現(xiàn),雙方都按照上述策略進行決策構(gòu)成整個雙人零和游戲的納什均衡點。換言之,任何一方即使知曉對方的混合策略,也無法通過改變自身策略來獲得利益。但是如果自身策略不當,則會帶來損失。

在這個博弈當中,如果自己的策略中,超出0.75的概率不是0,就會面對以上解出的均衡策略有所損失。這種策略稱為劣勢策略(至少在對抗均衡策略的情況下,相對于均衡策略而言,是劣勢的)。

如果自己遵循納什均衡策略,則對方無法剝削自己,而自己能夠剝削有劣勢策略的玩家;

如果自己遵循納什均衡策略,而對方無劣勢策略,則期望意義下雙方持平;

如果自己不遵循納什均衡策略,則對方有可能可以剝削自己。

啟發(fā)

盡管本例子中的簡單模型遠不足以囊括我們在各種游戲中需要進行決策的場合,但至少我們可以認識到以下幾點:

1,也許雙方的各個決策之間存在著循環(huán)克制關(guān)系,但通過適當?shù)母怕式M合,是可以在期望意義下保障一個底線收益的。至于底線收益具體是多少,則和具體的游戲規(guī)則有關(guān)。

2,一定條件下,零和博弈對于雙方的底線收益相加應(yīng)當為0。事實上,馮諾依曼證明過%5Cmin_p%5Cleft(%5Cmax_q%5Cleft(p%5ETAq%5Cright)%20%5Cright)%3D%5Cmax_q%5Cleft(%5Cmin_p%5Cleft(p%5ETAq%5Cright)%20%5Cright)。用人話來說,就是:任何雙方的單步的、有限種決策的、每對決策的結(jié)果效用明確的零和博弈,都存在至少一對雙方的納什均衡混合策略。雖然本文的例子當中的決策集不是有限的,但依靠較深的泛函分析理論依然可以建立類似馮諾依曼等式的結(jié)論。本文并未討論一般的結(jié)論,只是對于具體的例子,將納什均衡顯式地解出來了(事實上求解的過程并不嚴謹,只不過可以“先猜測,后驗證”以證明我們的結(jié)果確實是混合納什均衡解)。

3,劣勢策略是可能存在的,但如果不對一個游戲進行精細的分析,我們難以先驗地判斷哪些策略是劣勢策略。如果我們用了劣勢策略,對方甚至不需要知道我們的策略體系,也能用納什均衡對我們進行剝削。


策略分析例子:選數(shù)比大小的評論 (共 條)

分享到微博請遵守國家法律
当阳市| 甘孜县| 庄河市| 铜川市| 微山县| 商水县| 大英县| 纳雍县| 额尔古纳市| 青河县| 彭泽县| 游戏| 静宁县| 永胜县| 丽江市| 乐都县| 临沭县| 天台县| 武平县| 威宁| 阿拉尔市| 晋城| 浑源县| 呼和浩特市| 犍为县| 临沧市| 义马市| 伊金霍洛旗| 金平| 吴旗县| 石屏县| 安平县| 六盘水市| 安阳市| 临漳县| 林芝县| 通城县| 盐池县| 兴安县| 措美县| 永城市|