@Komi @石川敬介
今天想起来了读182题时,想到的一些事儿。
因为这道题里面涉及到了一些关于博弈论的内容,经济学扔了好久了,想借着这道题说一下在博弈过程中的逻辑推演的问题。
下午我发了一条消息里面,就讨论了一下这个题里可能存在的一些问题,就182题《白色风车》里的一个基础逻辑问题提出了我的看法。
(一)博弈逻辑的基础是什么?
先讨论一下这道题里的一个基础问题,就是在182题里面,玩家的游戏逻辑是什么,以及取胜之道是什么?
在经济学里,我们所有的讨论,都必须建立在一个假设之上,就是经济人假设。
经济人就是以完全追求物质利益为目的而进行经济活动的主体,人都希望以尽可能少的付出,获得最大限度的收获,并为此可不择手段。
当然了,现实中我们人类不可能单纯地进行纯粹最大利益,因为我们有情感需求,有社会属性。
但是基本上来说,所有人在这个游戏里面,应该遵循的一个原则就是自己的利益最大化。
但是这个时候,我们就会面临两个问题,就是帕累托最优解和囚徒困境。
(二)什么是帕累托最优和囚徒困境
稍微了解过博弈论的话,就知道这两个名词。
先解释一下,什么叫做帕累托最优解,
帕累托最优(Pareto Optimality),也称为帕累托效率(Pareto efficiency),是指资源分配的一种理想状态,假定固有的一群人和可分配的资源,从一种分配状态到另一种状态的变化中,在没有使任何人境况变坏的前提下,使得至少一个人变得更好,这就是帕累托改进或帕累托最优化。
通俗的来说,就是说,别人变好了的话,我没有变坏,那这个就是帕累托改进的过程,直到达到一种平衡状态,才达到帕累托最优。
而什么是囚徒困境的呢?
例子
1950年,由就职于兰德公司的梅里尔·弗勒德(MerrillFlood)和梅尔文·德雷希尔(MelvinDresher)拟定出相关困境的理论,后来由顾问艾伯特·塔克(AlbertTucker)以囚徒方式阐述,并命名为“囚徒困境”。经典的囚徒困境如下:
警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择:
若一人认罪并作证检控对方(相关术语称“背叛”对方),而对方保持沉默,此人将即时获释,沉默者将判监10年。
若二人都保持沉默(相关术语称互相“合作”),则二人同样判监1年。
若二人都互相检举(相关术语称互相“背叛”),则二人同样判监8年。
关于囚徒困境不具体展开来说,有兴趣的可以自行查找相关内容。从明面来看,两人相信对方,并进行合作就是集体利益最大化,好像是如此。
简单的来说,就每个人都会按照自己的利益最大化去思考问题,而不是其他人的利益最大化,最后两边人就都选择背叛,导致了双方损失最大的这么一种情况。
类似的桥段,在《蝙蝠侠3》里著名的那个船上互相掌握对方的按钮桥段就来自于此,如果真的按照囚徒困境来说,似乎双方真的会提前按下按钮。
而像《三体》中的飞船中进入黑暗战役时,某种意义上来说,也有类似的情况存在,双方都选择了进行攻击。
所以如果能理解这一点,就应该清楚在设计智斗游戏的时候,一定要明确博弈的目标和方式。
(三)回到问题上,为什么谷界的逻辑存在问题
在182题中,每个人得到了1-9中间的一个数字,要求按照数字大小到达指定的房间。
而这里面就有个一个逻辑问题,就是是否存在玩家拿到1或9的可能性?
从博弈的角度来说,游戏的制定者一定会避免这种情况。
因为场上只有4个房间,如果有玩家拿到1或9,就代表了玩家一定是数字最小或者数字最大的那个玩家,只需要进入第一个房间或第四个房间就可以了,其他玩家的死活就跟我没有关系了。
这个玩家就一定是必胜的玩家,最多出现一个人也是极限值,那么这两个人就一定能达成平手,剩下一个人存在50%的概率三人平手或者两人直接晋级。
所以明白了这一点,从游戏制定者来说,作为3人参与的智斗游戏,应该尽可能减少因为运气因素造成的晋级,那么在这个基础上就不应该有9号出现在玩家手里。
从这一点来说,谷界不可能是9。
所以,如果另外两个玩家作为最大理性人的话,那就不可能上谷界的当,应该直接拆穿谷界的阴谋。
当然,如果真的存在靠运气抽到9或者1的话,我们再根据上面提到的博弈方法进行一次博弈。
假如谷界真的是9,他实际上也进入到了一种的博弈过程中,他应该怎么做?
谷界有两种选择,一种是合作,另一种是不合作。这里还涉及到零和博弈和非零和博弈。
假如是零和博弈,就是3个人平分奖金,假如是非零和博弈,就是晋级者的收益都一样。
(1)非零和博弈之下假如三个人都晋级的,每人能得到1块钱的奖励的话。
假如谷界选择了不合作,他是100%晋级,然后瑞德100%晋级,然后思源也会50%晋级。
三人的目标效用是分别是(谷界1,瑞德1,思源0.5)
这里提一下,为什么瑞德也是100%晋级,因为瑞德从谷界不参加讨论中可以得知,谷界一定是极值,那么他只要较晚提交,看谷界是否选择第四间即可确定谷界的号码。
而思源通过同样的推理,加上瑞德的自爆,也推理得知自己一定是第一个或第二个,她凭借运气概率是50%。
第二种情况,谷界选择了合作。
这个时候,三个人的目标就变成了三人晋级时刻的分数相同。
忽略过程以后,三个人最后的效用就会是(谷界1,瑞德1,思源1)
好像确实实现了帕累托改进?
但是,事实上根据谷界的选择来说,晋级并不是如此的,在他看来,为晋级后的奖励应该是由晋级者平分。
(2)也就是零和博弈零和博弈之下就是晋级者应该平分3块钱。
所以谷界在第一种不合作的情况下的实际效用应该是(1.25,1.25,0.5),也就是谷界和瑞德的预期效用应该是1.25。
也正是这个因素,谷界从不合作到合作,并不是帕累托改进。
所以在谷界眼里,如果他真是9的话,他绝对不应该说出自己的真实数字。
那么这个局该怎么破呢?从利益角度来说,还有一种方法,就是思源和瑞德有两个思路。
一个就是思源和瑞德在可以推理谷界是1,4极值的情况下,主动占据1,4号,并且表示如果思源不合作,就不换房间。
另一个就是交易,思源和瑞德保证将晋级的一部分收益转交给谷界,使谷界的预期利益不会受损。
另外一种就是,晋级和收益无关,反而能满足谷界的一部分其他心理需求。 |