发表于 2025-12-12 09:20:07 北京 发帖际遇
拿AI做了一个简单的实验,把193的谜题篇和解答篇还有满分答案和我们自己的答案都复制到了一起,让AI给打分,prompt如下:这个文档里包含了谜题篇、解答篇,还有两个答案。答案1和答案2.麻烦根据谜题篇和解答篇的内容,对两个答案分别进行评分。分值是1-10分。不需要故事完全相同,但是需要和解答篇提及的核心行为和分析匹配。
AI的回答:
答案1评分:9/10
优点:

✅ 完全正确识别出第二局是平局,且平局显示为✅
✅ 准确推理出谷界和思源的数字分别是3,5,8和2,3,9
✅ 正确还原了A~F的位置:A=5, B=3, C=8, D=3, E=9, F=2
✅ 详细复盘了六局对战的全过程,与解答篇完全吻合
✅ 深入分析了第四局、第五局双方的心理博弈,特别是第五局谷界面对的三种可能性分析(A、B、C三种情况),展现了对核心推理的深刻理解
✅ 逻辑链条完整:从规则分析→平局判定→数字推理→位置还原→对局复盘
扣分点:

在"第四局"的心理分析中,有一处表述"都误认为对方已经错了两局"稍显简化,实际上解答篇强调的是谷界认为自己2:0领先,思源认为自己2:1领先
答案2评分:8.5/10
优点:

✅ 完全正确识别出第二局是平局,且平局显示为✅
✅ 准确推理出数字和位置:A~F为538392
✅ 用表格清晰展示了六局的结果,便于理解
✅ 正确捕捉到谷界在第四局和第五局的关键心理活动
✅ 引用原文充分,论证有力
✅ 结尾总结到位:"获得√并不代表着胜出"点明核心
扣分点:

对第四局和第五局双方心理博弈的分析不如答案1深入,特别是第五局谷界面临的复杂决策过程(三种可能性)没有详细展开
对"为什么思源第四局选择用最小数"的动机分析较简略,不如答案1从比分视角的细致解读
总评:
两个答案都准确掌握了核心要点:

平局机制(第二局3 vs 3显示双✅)
数字推理(谷界3,5,8;思源2,3,9)
位置还原(A~F: 538392)
最终比分(3:2谷界胜)
答案1略胜一筹在于对博弈心理的深度分析,特别是第五局谷界的决策树分析;答案2在表格呈现和逻辑清晰度上有优势。两者都是优秀的解答。

这里没有任何踩捧的意思。包括AI给的关于我们的扣分点我觉得也是合理的,其实和版主在其他楼回复的核心思想差不多。但是我只是很好奇这一点是否真的值3.5分。如果给我们8-8.5我们基本上是可以接受的。

目前AI其实作为评分是比较成熟的,我们工作也是用AI来做evaluation。我觉得他有一个好处就是能完全以同样的标准评判每一条回答。只要每个作者给出解答篇,再可以给出一个给分点的分布,其实AI能非常快速且让大家基本没有太大异议的给出分值。当然如果作者本身能公布给分点,也许我们自己也更清楚大概能得多少分。如果觉得这样不好那也可以让AI运行但是不公布,给管理员这个信息。

说实话这次是不太舒服的。第二题分数更低但是我们能接受。不说题好坏,反正是没对上作者的脑洞(我无论如何想不到为了不让妈妈发现涮瓶子这种行为的,我觉得不是正常人)。看到答案就知道,就那样了。但是这种题目,即使看到答案我依然觉得不会拿到这样的成绩,因为就是个简单的题,没有人要求我们说因为题目简单我们必须得上上难度多分析之类的。

反正都是建议,当然可能跟绝大多数的建议一样没人在乎,那就当是吐槽吧
发表于 2025-12-12 10:02:20 浙江| 发自安卓客户端 发帖际遇
求红小鸡
发表于 2025-12-12 14:19:02 广东| 2025-12-12 14:20编辑 发帖际遇
重新阅读了题目,审视了下当时我们内部的思路。发现了真正的问题所在。
猴叔说的没有思考【思源角度下会考虑谷界持有10的可能性】,没错这个是对的。但是通过审视当时思路发现了问题。
答案是被题目本身的叙述导向引导了我们的思维,这个跟当时没考虑到白姐他们队提出来的【多平局】是一样的。
来理一下的话就是如下:
首先前提条件是,无论思路怎么变换,最终题目答案的数字我们是能直接引用的。那么就可以带入到每一局里面去分析双方思路。
下面引用下叶雪大佬的回答
引用
第一局谷界5 VS思源2,谷界胜;
第二局谷界3 VS思源3,平;
第三局谷界8 VS思源9,思源胜;
第四局谷界3 VS思源2,谷界胜;
第五局谷界8 VS思源9,思源胜;
第六局谷界5 VS思源3,谷界胜;


那么,客观来说,第一局的思源视角是对方出了个未知数,
第二局是对方很可能除了最小数,因为自己赢了那么对方只有1-2,而双方一开始都没意识到平局,一直强调1和10尽量避免,所以其实她心理应该是觉得很有可能是2。数字不能重复所以对方已经用过最小数了(哪怕是1那也是最小数)。
第三局自己也赢了,但其实客观视角是对方第三局输了而已,第一局既然对方是未知数,那么只要大于2就行了,完全可以是3~10之间任何数,所以其实第一局对方出10也没有问题,

但是最大的问题来了。猴叔说的没错,是应该要思考对方可能藏了个10的可能性,但是文章中的以下原文,完全引导了读者的思考:

引用
思源(第三局):
显示屏上呈现着“正确”的结果。
从这里来看,谷界的最大数字应该还是比我的要小,看来之前的选择是正确的。也就是说,我只要再赢一局便可获得这轮的胜利——但谷界究竟是有什么样的数字,目前看来依然不是很清楚。尽管如此,至少轮次已经胜券在握了:既然我的最大数字比谷界的要大,后面要是再遇到像第三局这样的情况,谷界这轮必输无疑。


思源认定了第三局对方出了最大数字,且自己的最大数字要大于对方的。而且因为我们读者视角之前已经被灌输过【谷界最大数字为8】这个观念,很容易就接纳了思源这里的说法。
这里不否认,没有跳出视角是我们的锅,但是问题点并不在这里。

真正的问题在于,第三局思源已经认定了对方最大数字小于9,那么第四局从何谈起思源思考对方有10的可能性。
因为目前我们得知扣分点是【思源认为谷界还是有可能攥着个10】,且在第四局思源视角内:
引用
思源(第四局):
现在的情况还在我的掌控之中……倒不如说正向着好的反向发展。
越是这种时候越是惊险。即便成功就在我的眼前,我也会冷静分析。用自己的最小数字或第二小的数,骗取对方手中的最大数字。这一种情况我考虑了不下百次。
第四局谷界多半会料定我将使用最大数字直接赢下,但其实我只是抛出了自己最小的数字。
当然了,结果是怎么样的我并不能肯定,但选择的这条路绝对是最安稳的。
如此一来不管输赢,这一周期接下来最大的数字大概率会在我的手上,在双方获胜局数都相同的情况下,我并不认为谷界还可以在数字方面战胜我。
那就再等下一局吧,也就是第五局。到时候房间逆时针旋转120度,我便会用最大数字直接宣告对手的失败。
不过这局对决我不直接赢下的另一个原因,也是因为我很享受与他对决的过程——但也是时候结束了。
“谷界,这场游戏最终将会是我的胜利,”看着选定数字后屏幕上的结果,我会心一笑:看来他上当了……


可能会说,当然了,结果是怎么样的我并不能肯定,但选择的这条路绝对是最安稳的。
这段话难道不是在说不确定数字吗,但是联系前后文,也可以得出这可能是说【这一局】的结果不能肯定。
而且可以看原文我标红的,思源说我并不认为谷界在这一轮能够在数字方面战胜我,就是她仍然深信第三局的结果也就是双方中最大数字在自己手里这一点。
那么,既然思源本身并没有这方面的疑虑,为何因为【思源认为谷界还是有可能攥着个10】这一点而扣分,这是明显的矛盾。

但,最后说一句,其实最终问题归于题目本身,是可以修改一下题目,那么这方面的博弈我确实觉得挺好,也有必要去思考。
但是如果大家都是被描述引导,而没有答出这一点的话,那是否应该重新考虑这方面的扣分是否合理?

另外感谢答疑的猴叔以及提供了思路的RUBP,狼叔迷弟等大佬。
发表于 2025-12-12 14:40:42 北京| 发自安卓客户端 发帖际遇
已经不太记得谜题内容了赛委辛苦
发表于 2025-12-12 15:17:24 浙江 发帖际遇
引用
你这么认这个评分系统干什么呀
啊 他会把人的付出给异化掉的

每次都只是猜答案的已经不关心评了几分了
发表于 2025-12-12 15:32:21 山东| 来自小霸王手机
没写过程只写了结论,有1分很知足了qwq
发表于 2025-12-12 16:37:45 山东
虽然后排可能没人看了,但说一下为什么单单对这道题的评分产生疑问。

跟题目里两个角色的智力没有任何关系,二人的设定就是两个水平不行的人在智斗产生的这种结果,他们想到的事情、没想到的事情、甚至像是开天眼的事情,我都假设他们就是这么一种人,开天眼了就是灵机一动了没想那么多可能性。

所以我纠结的点不在于题目本身是否有问题,它本身就是一道非常简单的逻辑题,像是一道“一分钟破案”,做完题目的观感就是:这道题应该会有很多人满分。

但是评分结果却是不知道从哪个犄角旮旯里掏出一个点,分值特别高,而且和做题人的推理流程没什么关系。

把做题当作游戏收集道具通关的话,这个点就是一个和主线没什么关系,不能作为实在的证据去参与推理流程的东西。

“很多人没注意到这点”有时候不代表题目和答案设置的多么好,在这道题里我认为是因为“它不重要”。

当看到这个点的时候,产生的想法不是“啊!原来我漏了这么重要的点”,而是“他喵的这是个什么无聊的点有必要写进答案里面吗?”
发表于 2025-12-12 21:47:51 湖南| 发自安卓客户端
真不错
发表于 2025-12-13 18:33:00 浙江| 发自安卓客户端
数字错了个及格了居然,不过本来当时想的也是猜数字夺标也定不了胜负就没细想了。搞了半天谷界还真赢了,中间有几局上帝视角看他们就是在打王八拳。
发表于 2025-12-14 15:28:45 广东| 发自安卓客户端
可以可以,队友很强
返回版块
12345
尚未登录
您需要登录后才可以回帖 登录 | 加入学院