囚徒困境

32161 · 发表于 2013-12-10 21:21:17

本帖最后由キャンディ于 2013-12-10 21:25 编辑

囚徒困境（prisoner's dilemma ）：两个被捕的囚徒之间的一种特殊博弈，说明为什么甚至在合作对双方都有利时，保持合作也是困难的。
囚徒困境是博弈论的非零和博弈中具代表性的例子，反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质，但现实中的价格竞争、环境保护等方面，也会频繁出现类似情况。

来源
囚徒困境的故事讲的是，两个嫌疑犯作案后被警察抓住，分别关在不同的屋子里接受审讯。警察知道两人有罪，但缺乏足够的证据。警察告诉每个人：如果两人都抵赖，各判刑一年；如果两人都坦白，各判八年；如果两人中一个坦白而另一个抵赖，坦白的放出去，抵赖的判十年。于是，每个囚徒都面临两种选择：坦白或抵赖。然而，不管同伙选择什么，每个囚徒的最优选择是坦白：如果同伙抵赖、自己坦白的话放出去，不坦白的话判一年，坦白比不坦白好；如果同伙坦白、自己坦白的话判八年，不坦白的话判十年，坦白还是比不坦白好。结果，两个嫌疑犯都选择坦白，各判刑八年。如果两人都抵赖，各判一年，显然这个结果好。但这个帕累托改进办不到，因为它不能满足人类的理性要求。囚徒困境所反映出的深刻问题是，人类的个人理性有时能导致集体的非理性——聪明的人类会因自己的聪明而作茧自缚。

简介

单次多重

单次发生的囚徒困境，和多次重复的囚徒困境结果不会一样。
在重复的囚徒困境中，博弈被反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时，合作可能会作为均衡的结果出现。欺骗的动机这时可能被受到惩罚的威胁所克服，从而可能导向一个较好的、合作的结果。作为反复接近无限的数量，纳什均衡趋向于帕累托最优。

主旨

囚徒们虽然彼此合作，坚不吐实，可为全体带来最佳利益（无罪开释），但在资讯不明的情况下，因为出卖同伙可为自己带来利益（缩短刑期），也因为同伙把自己招出来可为他带来利益，因此彼此出卖虽违反最佳共同利益，反而是自己最大利益所在。但实际上，执法机构不可能设立如此情境来诱使所有囚徒招供，因为囚徒们必须考虑刑期以外之因素（出卖同伙会受到报复等），而无法完全以执法者所设立之利益（刑期）作考量。

类别

固定困境

试想像囚徒困境的情况进行十次或以下。
我们可以合理地设想，如果囚徒第一次被对方指控，第二次这个囚徒也会指控对方。相反，如果第一次

相关书籍
别人保持沉默，建立了互信的关系，你也会保持沉默，导致帕累托最优。
当然，两个囚徒都会有相似的想法，在第一局保持沉默，以期望建立互信关系，所以双方都会保持沉默。第二局时，双方亦应有相似的想法，继续保持沉默，以期继续在互信的情况下进行第三局，以致余下的八局。
这种想法合理吗？
在第十局时，互信的关系明显是没有意义的，因为十局已经完结，囚徒没有必要为维持互信的关系而沉默(没有第十一局)，所以第十局囚徒一定会背叛对方的，理由和只有一局囚徒困境一样。
问题是，既然大家都知道在第十局，无论如何对方都会背叛自己的，你在第九局保持沉默也是没有意思的，要知道，保持沉默(友好关系)的原因是为了希望下一局别人保持沉默。所以第九局双方都一定会背叛对方的。
下一个问题是，双方都有相同的想法，明知第九局对方会背叛自己，所以第八局保持沉默也是没有意思的，第七局亦然，如此类推，纳什均衡是十局都会互相背叛，建立互信关系是没有可能的。
只有在囚徒困境的局数大家都不肯定的情况下，上述的推论才不会发生，才会出现互相保持沉默的现象。
经典困境

例子
1950年，由就职于兰德公司的梅里尔·弗勒德（Merrill Flood）和梅尔文·德雷希尔（Melvin Dresher）拟定出相关困境的理论，后来由顾问艾伯特·塔克（Albert Tucker）以囚徒方式阐述，并命名为“囚徒困境”。经典的囚徒困境如下：
警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯，分别和二人见面，并向双方提供以下相同的选择：
若一人认罪并作证检控对方（相关术语称“背叛”对方），而对方保持沉默，此人将即时获释，沉默者将判监10年。
若二人都保持沉默（相关术语称互相“合作”），则二人同样判监1年。

若二人都互相检举（相关术语称互相“背叛”），则二人同样判监8年。
用表格概述如下：

甲沉默
甲背叛
乙沉默
二人同服刑1年
乙服刑10年，甲即时获释
乙背叛
甲服刑10年，乙即时获释
二人同服刑8年

解说
如同博弈论的其他例证，囚徒困境假定每个参与者（即“囚徒”）都是利己的，即都寻求最大自身利益，而不关心另一参与者的利益。参与者某一策略所得利益，如果在任何情况下都比其他策略要低的话，此策略称为“严格劣势”，理性的参与者绝不会选择。另外，没有任何其他力量干预个人决策，参与者可完全按照自己意愿选择策略。
囚徒到底应该选择哪一项策略，才能将自己个人的刑期缩至最短？两名囚徒由于隔绝监禁，并不知道对方选择；而即使他们能交谈，还是未必能够尽信对方不会反口。就个人的理性选择而言，检举背叛对方所得刑期，总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择：
若对方沉默时，背叛会让我获释，所以会选择背叛。
若对方背叛指控我，我也要指控对方才能得到较低的刑期，所以也是会选择背叛。
二人面对的情况一样，所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此，这场博弈中唯一可能达到的纳什均衡，就是双方参与者都背叛对方，结果二人同样服刑8年。
这场博弈的纳什均衡，显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言，如果两个参与者都合作保持沉默，两人都只会被判刑1年，总体利益更高，结果也比两人背叛对方、判刑8年的情况较佳。但根据以上假设，二人均为理性的个人，且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛，结果二人判决均比合作为高，总体利益较合作为低。这就是“困境”所在。例子漂亮地证明了：非零和博弈中，帕累托最优和纳什均衡是相冲突的。

余下
http://baike.baidu.com/link?url=93wlC76I1Imdzohn8BqQtA5gpWAttGUkso7iagMfOHp_t0u64YXSUVkgr6f6EIDJ

31052 · 发表于 2013-12-11 15:43:24

本帖最后由无遥之远于 2013-12-11 15:44 编辑

没听过，挺新鲜的

小际，我说过，吃我的早晚要还回来的！

10561 · 发表于 2013-12-11 20:21:06

此乃博弈论基础，经济学必学

32161 · 发表于 2013-12-11 20:49:24

在小说绘里听过就查了一下

1137 · 发表于 2013-12-15 09:59:02

这个在每天学点博弈学里面看到过

32154 · 发表于 2013-12-15 17:54:35

这个我以前曾看到过。

34408 · 发表于 2014-7-25 12:06:06

看来歹徒也要有好兄弟才行……

21457 · 发表于 2014-8-30 15:59:57

类似的还看到过很多，比如抓绿豆，分财产等等
好像是一本讲逻辑推理的书上面的

[知识科普] 囚徒困境