【原创】【博弈游戏】（杀拉的私人活动）——警察与小偷

21457 · 发表于 2017-12-6 16:38:41

Rubp的警察策略对 careful_thief

careful_thief带有学习对方概率的能力

Police_score : 16819
Thief_score : -16819
Police_win_num : 4951
Thief_win_num : 5049

Police_Bank_num : 4566
Police_Shop_num : 5434
Thief_Bank_num : 5291
Thief_Shop_num : 4709
Police_win_rate : 49.51%
Thief_win_rate : 50.49%

小偷胜率高过警察了，而且只损失了-16819万

21457 · 发表于 2017-12-6 16:46:04

易空烨（8楼）贼对战 Rubp（5楼）的警察
10000局

Police_score : 17524
Thief_score : -17524
Police_win_num : 5055
Thief_win_num : 4945

Police_Bank_num : 4626
Police_Shop_num : 5374
Thief_Bank_num : 5293
Thief_Shop_num : 4707
Police_win_rate : 50.55%
Thief_win_rate : 49.45%

结果上看应该是警察优势

45001 · 发表于 2017-12-6 16:48:04

那么小偷随机概率换地点，比如随机有10%~90% 的几率换地点怎么样？

15586 · 发表于 2017-12-6 16:57:20

小偷“偷1次银行，偷2次商店，偷3次银行，偷4次商店”以此为循环。
对smart_police()，1000次

45001 · 发表于 2017-12-6 17:02:11

聪明警察学习力到底多强啊？

这样子呢：
基于现有的所有策略，先随机选一个开始，一旦被抓到就随机再换一个策略(可以重复，也就等于没换)，就这样循环下去。

21457 · 发表于 2017-12-6 17:17:07

@c.c

补充:顺带一提，策略中还可以包括当前的分数情况
比如之前自己分数落后得比较多了，就采用激进策略；反之可以选择保守策略

35762 · 发表于 2017-12-6 18:48:03

小偷策略：以5:3:2=前一天警察所在的地方：银行：商店的比例对战随机警察1000天

10629 · 发表于 2017-12-6 19:05:51

①小偷，一直只偷银行
②小偷，一直偷一家，被抓了就换另一家。依次类推

21457 · 发表于 2017-12-6 19:47:00

小虎第一个策略和 careful_police

最大分差出现了

Police_score : 50000
Thief_score : -50000
Police_win_num : 10000
Thief_win_num : 0

Police_Bank_num : 10000
Police_Shop_num : 0
Thief_Bank_num : 10000
Thief_Shop_num : 0
Police_win_rate : 100.0%
Thief_win_rate : 0.0%

3810 · 发表于 2017-12-6 19:54:40

不知道这种能不能实现：
首先在10000场中生成一个数作为连续的天数，然后随机生成一个概率作为在这些天数中小偷去银行的概率。当这些天数结束时再从剩下的天数中随机一个连续天数和概率，依次类推直到10000场结束。

随便瞎想的没啥理论依据

[逻辑推理] 【原创】【博弈游戏】（杀拉的私人活动）——警察与小偷