| 楼主| 发表于 2017-12-6 16:38:41 | 显示全部楼层 发帖际遇
Rubp的警察策略 对 careful_thief

careful_thief带有学习对方概率的能力

Police_score : 16819
Thief_score : -16819
Police_win_num : 4951
Thief_win_num : 5049

Police_Bank_num : 4566
Police_Shop_num : 5434
Thief_Bank_num : 5291
Thief_Shop_num : 4709
Police_win_rate : 49.51%
Thief_win_rate : 50.49%


小偷胜率高过警察了,而且只损失了-16819万
登录帐号可查看完整回帖内容
| 楼主| 发表于 2017-12-6 16:46:04 | 显示全部楼层
易空烨(8楼)贼  对战  Rubp(5楼)的警察
10000局

Police_score : 17524
Thief_score : -17524
Police_win_num : 5055
Thief_win_num : 4945

Police_Bank_num : 4626
Police_Shop_num : 5374
Thief_Bank_num : 5293
Thief_Shop_num : 4707
Police_win_rate : 50.55%
Thief_win_rate : 49.45%


结果上看应该是警察优势
登录帐号可查看完整回帖内容
| 发表于 2017-12-6 16:48:04 | 发自安卓客户端 | 显示全部楼层
那么小偷随机概率换地点,比如随机有10%~90% 的几率换地点怎么样?
登录帐号可查看完整回帖内容
| 发表于 2017-12-6 16:57:20 | 显示全部楼层
小偷“偷1次银行,偷2次商店,偷3次银行,偷4次商店”以此为循环。
对smart_police(),1000次
登录帐号可查看完整回帖内容
| 发表于 2017-12-6 17:02:11 | 发自安卓客户端 | 显示全部楼层
聪明警察学习力到底多强啊?

这样子呢:
基于现有的所有策略,先随机选一个开始,一旦被抓到就随机再换一个策略(可以重复,也就等于没换),就这样循环下去。
登录帐号可查看完整回帖内容
| 楼主| 发表于 2017-12-6 17:17:07 | 显示全部楼层 发帖际遇
@c.c


补充:顺带一提,策略中还可以包括当前的分数情况
比如之前自己分数落后得比较多了,就采用激进策略;反之可以选择保守策略
本帖子中包含更多图片或附件资源

您需要 登录 才可以下载或查看,没有帐号?加入学院

登录帐号可查看完整回帖内容
| 发表于 2017-12-6 18:48:03 | 显示全部楼层 发帖际遇
小偷策略:以5:3:2=前一天警察所在的地方:银行:商店的比例对战随机警察1000天
登录帐号可查看完整回帖内容
| 发表于 2017-12-6 19:05:51 | 发自安卓客户端 | 显示全部楼层
①小偷,一直只偷银行
②小偷,一直偷一家,被抓了就换另一家。依次类推
| 楼主| 发表于 2017-12-6 19:47:00 | 显示全部楼层
小虎第一个策略 和 careful_police

最大分差出现了

Police_score : 50000
Thief_score : -50000
Police_win_num : 10000
Thief_win_num : 0

Police_Bank_num : 10000
Police_Shop_num : 0
Thief_Bank_num : 10000
Thief_Shop_num : 0
Police_win_rate : 100.0%
Thief_win_rate : 0.0%
登录帐号可查看完整回帖内容
| 发表于 2017-12-6 19:54:40 | 显示全部楼层
不知道这种能不能实现:
首先在10000场中生成一个数作为连续的天数,然后随机生成一个概率作为在这些天数中小偷去银行的概率。当这些天数结束时再从剩下的天数中随机一个连续天数和概率,依次类推直到10000场结束。

随便瞎想的没啥理论依据
登录帐号可查看完整回帖内容
返回版块
1234
尚未登录
您需要登录后才可以回帖 登录 | 加入学院