石頭剪刀布,如果得分不同怎么玩(下)

感謝 喬木心心 提到的這個創(chuàng)意??!
由于我水平有限,以下只能算我嘗試解題的記錄、學(xué)習(xí)筆記,像“納什均衡”等概念都是第一次接觸,可能發(fā)生理解錯誤、計算錯誤、表述錯誤等,最后結(jié)論也不確定對,歡迎指正!

書接上文~
5(布)勝0(石頭),得5分。
0(石頭)勝2(剪刀),得2分。
2(剪刀)勝5(布),得7分。
有沒有可以取得最優(yōu)解的策略?

5. 試試解類似的題——帶詳細過程
百度百科“納什平衡”里“硬幣正反”案例有詳細的解題過程[1],我跟著它的思路走,沒有感覺哪里不對。但我無法確定這樣做是對的,我找不到出處。
知乎中“石頭剪刀布勝負不同權(quán)重會導(dǎo)致什么策略解?”問題,“Richard Xu”給出了答案[3]?。我也無法確定答案是對的。我想嘗試用剛才的解題方法做一下知乎這道題,然后跟答主給的答案對一下。
從知乎上復(fù)制下來的問題內(nèi)容:
比如假設(shè)石頭勝利可以得到1元,剪刀勝利可以得到0.8元,布勝利可以得到0.5元。
那么出每種的策略應(yīng)該是什么?

我畫了個表。這個表里,逗號前面是A的收益,逗號后面是B的收益。
用P剪刀代表我出剪刀的概率;用P石頭代表我出石頭的概率;用P布代表我出布的概率。
在對方出剪刀的情況下,我得到的錢是P剪刀 * 0 + P石頭 * 1 + P布 * 0;
在對方出石頭的情況下,我得到的錢是P剪刀?*?0 + P石頭 * 0 + P布 * 0.5;
在對方出布的情況下,我得到的錢是P剪刀?*?0.8 + P石頭 * 0 + P布 * 0。
還可以知道,P剪刀?+ P石頭 + P布?= 1
為了使利益最大化,應(yīng)該在對手出剪刀或石頭或布的時候我的收益都相等(不然在這個游戲中,對方可以改變剪刀石頭布出現(xiàn)的概率讓我的期望收入減少)[1],由此列出方程就是
P剪刀?*?0 +?P石頭?* 1 +?P布?* 0?
=?P剪刀?*?0 +?P石頭?*?0?+?P布?* 0.5?
=?P剪刀?*?0.8?+?P石頭?*?0?+?P布?* 0
也就是,P石頭?* 1 =?P布?* 0.5 =?P剪刀?*?0.8
再結(jié)合,?P剪刀?+?P石頭?+?P布?=?1
可以得到,
P剪刀 = 5/17;P石頭?= 4/17;P布?= 8/17
跟答主的答案不一樣啊,(掀桌.jpg),文章寫不下去了,打不了卡了。
我仔細看了答主的解答。
答主認為“贏家獲得的錢來自于輸家輸?shù)舻腻X”。我前面是以“贏家獲得錢,輸家沒有損失”來算的。讓我以“贏家獲得多少錢,輸家就失去多少錢”來再算一遍。

我又畫了個表。這個表里,逗號前面是A的收益,逗號后面是B的收益。
用P剪刀代表我出剪刀的概率;用P石頭代表我出石頭的概率;用P布代表我出布的概率。
在對方出剪刀的情況下,我得到的錢是P剪刀?* 0 +?P石頭?* 1 +?P布?* (- 0.8);
在對方出石頭的情況下,我得到的錢是P剪刀?*?(- 1) +?P石頭?* 0 +?P布?* 0.5;
在對方出布的情況下,我得到的錢是P剪刀?*?0.8 +?P石頭?* (- 0.5)?+?P布?* 0。
為了使利益最大化,應(yīng)該在對手出剪刀或石頭或布的時候我的收益都相等(不然在這個游戲中,對方可以改變剪刀石頭布出現(xiàn)的概率讓我的期望收入減少)[1],由此列出方程就是
P剪刀?*?0?+?P石頭?*?1?+?P布?*?(-?0.8)
=?P剪刀?*?(-?1)?+?P石頭?* 0 +?P布?* 0.5
=?P剪刀?*?0.8 +?P石頭?* (- 0.5)?+?P布?*?0
也就是,
P石頭?*?1?+?P布?*?(-?0.8)=?P剪刀?*?(-?1) +?P布?* 0.5 =?P剪刀?*?0.8 +?P石頭?* (- 0.5)
再結(jié)合,?P剪刀?+?P石頭?+?P布?=?1
可以得到,
P剪刀?=?5/23;P石頭?= 8/23;P布?= 10/23
跟答主給的答案一樣。
結(jié)論
如果“贏家獲得錢,輸家沒有損失”,那么用P剪刀?= 5/17;P石頭?= 4/17;P布?= 8/17這種概率出石頭剪刀布是最優(yōu)解,在雙方都采取最優(yōu)解的時候,平均每次雙方獲益都是4/17元;
如果“贏家獲得多少錢,輸家就失去多少錢”,那么用P剪刀?=?5/23;P石頭?= 8/23;P布?= 10/23這種概率出石頭剪刀布是最優(yōu)解,在雙方都采取最優(yōu)解的時候,平均每次雙方獲益都是0元。

6.?解本題——過程簡化
5(布)勝0(石頭),得5分。
0(石頭)勝2(剪刀),得2分。
2(剪刀)勝5(布),得7分。
如果贏家獲得分數(shù),輸家沒有損失:

P剪刀?*?0?+?P石頭?*?2?+?P布?*?0
=?P剪刀?*?0?+?P石頭?* 0 +?P布?* 5
=?P剪刀?*?7 +?P石頭?* 0?+?P布?*?0
再結(jié)合,?P剪刀?+?P石頭?+?P布?=?1
可以得到,P剪刀?= 10/59;P石頭?=?35/59;P布?=?14/59
如果贏家獲得分數(shù),輸家扣除相應(yīng)分數(shù):

P剪刀?*?0?+?P石頭?*?2?+?P布?*?(- 7)
=?P剪刀?* (- 2)?+?P石頭?* 0 +?P布?*?5
=?P剪刀?*?7?+?P石頭?* (-5)?+?P布?*?0
再結(jié)合,?P剪刀?+?P石頭?+?P布?=?1
可以得到,P剪刀?= 5/14;P石頭?=?1/2;P布?= 1/7
結(jié)論
如果“贏家獲得分數(shù),輸家沒有損失”,那么用P剪刀?= 10/59;P石頭?=?35/59;P布?=?14/59這種概率出石頭剪刀布是最優(yōu)解,在雙方都采取最優(yōu)解的時候,平均每次雙方獲益都是70/59分;
如果“贏家獲得分數(shù),輸家扣除相應(yīng)分數(shù)”,那么用P剪刀?= 5/14;P石頭?=?1/2;P布?= 1/7這種概率出石頭剪刀布是最優(yōu)解,在雙方都采取最優(yōu)解的時候,平均每次雙方獲益都是0分。

7.?果殼網(wǎng)“美女主動搭訕?小心數(shù)學(xué)陷阱”文章摘錄
我在最后好像找到百度百科“納什平衡”里“硬幣正反”解法的出處了,有可能是來自果殼網(wǎng)里一篇叫“美女主動搭訕?小心數(shù)學(xué)陷阱”的文章。
這篇文章有講到“硬幣正反”案例的出處:[2]
還記得瑪麗蓮?沃斯?莎凡特(Marilyn vos Savant)嗎?她是吉尼斯世界記錄認定的最高IQ人類,在雜志《Parade》上開過一個名叫“問問瑪麗蓮”(Ask Marilyn)的專欄,專門解決讀者的各種疑難雜題……
2002年3月31日的“問問瑪莉蓮”專欄上刊登了這么一道趣題:你正在圖書館枯坐,一位陌生美女主動過來和你搭訕,并要求和你一起玩?zhèn)€數(shù)學(xué)游戲(這不是死理性派最期待的嘛)。美女提議……
這篇文章里面講純策略和混合策略感覺還挺通俗的:[2]
人們在玩游戲的時候總會自己制定一些策略。在博弈論中,策略(strategy)有兩種,一種是確定的,稱為純策略(pure strategy),在什么情況下出什么牌、做出什么選擇都已經(jīng)定好,只需要照章辦事。另一種是隨機的,叫作混合策略(mixed strategy),給你的所有動作都定一個概率,按概率隨機從中選一個。人們在說到隨機的時候,直覺上傾向于認為各種情況等概率出現(xiàn),而有時候,控制某些情況出現(xiàn)的概率卻會產(chǎn)生神奇的效果。
這篇文章是這樣講“納什均衡”的:[2]
在有限人的游戲中,總存在這樣一種情況,每個人都能采取一種策略,使得他的利益不能再增大了。這就是博弈論中重要的納什均衡(Nash Equilibrium)。

參考
[1] “納什平衡”,百度百科,https://baike.baidu.com/item/%E7%BA%B3%E4%BB%80%E5%B9%B3%E8%A1%A1/1325910
[2] “美女主動搭訕?小心數(shù)學(xué)陷阱”,果殼網(wǎng),https://www.guokr.com/article/56198/
[3] 石頭剪刀布勝負不同權(quán)重會導(dǎo)致什么策略解?”,知乎,https://www.zhihu.com/question/38868420