发表于 2021-1-16 19:01:32 | 2021-1-18 21:18编辑 | 显示全部楼层
第八届贝克街杯推理大赛参赛情况研究报告


推理的艺术


一、背景介绍

一年一度的贝克街杯推理大赛是贝克街推理学院(以下简称“学院”)最重要的大型线上活动,同时也是网络推理领域最重要的线上赛事之一。去年如期举办的第八届贝克街杯推理大赛(以下简称“第八届大赛”或“本届大赛”)在规则上做出了重要创新,为广大网络推理爱好者奉献了五道优质的谜题和精彩的竞赛。同时,第八届大赛在参赛人数、平均得分、参赛者结构等方面也表现出了不同于往届的特征,值得进行深入研究。因此,笔者对近六届大赛的参赛者数量、得分等数据进行了收集与整理,运用简单的统计学方法加以分析,形成了此份参赛情况研究报告(以下简称“本报告”)。
鉴于本报告所做的工作在学院内尚无先例可循,笔者独立提出了一套研究框架,并参考相关领域设计了一系列统计指标,或可为后来的研究建立基本的范式。本报告以第八届大赛为研究核心,兼顾自第三届以来历届大赛的基本情况和发展趋势,主体部分由“规则创新”、“参赛情况”和“得分情况”三个模块组成,在结尾对核心观点进行了总结。本报告研究的具体问题包括但不限于:历届大赛参赛者人数和结构的变化及其影响因素、历届大赛规模和成绩的变化趋势、不同程度坐忘现象的量化分析、每题答题人数的递减幅度、队伍人数对成绩的影响、第八届大赛中规则创新的影响与成效等。
在数据分析方面需要做出以下说明:本报告所用数据均来自学院公开内容,笔者自行统计的数据都作出了相应说明;如无特殊说明,本报告中的p值均为双侧概率,显著性水平为0.05;为了避免报告内容过于繁琐,在确保重要结论不被遗漏的前提下省略了部分统计图表和数据分析过程;本报告统计分析和数据可视化处理主要通过Excel、Eviews和SPSS等软件实现。
本报告旨在客观真实地梳理历届大赛的各方面数据,以发展的眼光追踪各项数据的变化、分析其背后的影响因素,从而在一定程度上揭示推理大赛发展的规律,并尝试对一些特殊的现象和值得关注的问题作出解释。如能对学院管理者、大赛参赛者和关注者在认识大赛、参与大赛和组织大赛等方面提供一定的参考和帮助,则是莫大的幸事。值此第二届冬季赛即将到来之际,对冬季赛的相关分析报告也已在筹划之中,研究体系或可逐渐加以完善。笔者衷心希望此项研究可以有更多人参与、可以长期进行下去。
如有需要,可通过站内私信或其他联络方式向笔者索要本报告pdf版本及相关数据的Excel文件。引用和转载请注明出处及作者。
最后,本报告仅代表笔者(@推理的艺术 )个人观点,欢迎读者提出各种宝贵的意见和建议。由于个人能力不足和数据方面的种种局限,本报告的框架结构和统计方法等各方面仍有很多不成熟甚至不准确的地方,希望读者不吝斧正。

二、规则创新

贝克街杯推理大赛的规则一般在每届大赛的开赛通知帖中发布,是每届大赛组织、参赛和评分的依据。其中基础规则包括大赛流程、组队规则、答题规则、投稿规则和奖励设置等详细内容,大多基础规则一直保留至今,例如组队报名及答题方式、投稿超过两题不允许参赛、双评委评分制度、前三名获得实体奖励及一些重要的禁止事项等。这些规则早已为参赛者所熟知,其合理性也在实践中得到了检验。在此基础之上,随着实际情况的变化,每一届大赛都进行了不同程度的规则创新,本报告将其整理如下。
表1 第三届至第八届大赛规则创新大事记

[/align]
表1较为完整地展示了近六届大赛主要规则变革的脉络,从中可以发现几个主要的趋势:第一,大赛对个人参赛者和谜题作者的奖励逐渐提高。在基础规则之下,个人参赛者和队伍参赛者在同一赛道竞争,难度自然更大,因此对个人参赛者奖励的提高增加了大赛的公平性;谜题作者作为优秀谜题的生产者,是大赛不可或缺的参与方,对其提高奖励是对原创的尊重和鼓励,有利于吸引更多优质的谜题。第二,虚拟奖励的范围逐渐扩大。虽然只有前三名可以获得实物奖励,但大赛的发展离不开所有参赛者的关注和参与,每位参赛者的热情都值得鼓励,因此虚拟奖励范围的拓宽体现出大赛奖励的普惠化趋势。第三,大赛的实体奖励逐渐丰厚。随着大赛影响力的扩大,奖品也逐渐升级,这离不开主办方的无私奉献和@初见云烟 先生等推理爱好者的友情赞助。第四,大赛对违规现象的监督和惩罚越来越严格。这和近年发生的违规事件有一定关系,明确违规行为、加强惩罚力度,有利于维护大赛的公平公正,保护每位参赛者的权益。第八届大赛总共进行了六项主要的规则创新,上述趋势在其中均有体现。
鼓励谜题创作方面,谜题字数要求首次放宽,八千至一万五千字的推荐字数范围不再包括解答篇,给作者以更大的自由发挥空间;同时在最佳谜题奖励之外增设了投稿奖励,凡投稿被采纳的作者均可得到签本作为奖励。
[align=center]

图1 第三届至第六届大赛参赛者出题数统计图

每届大赛的谜题只有一部分是参赛者投稿,其余均为赛委出题。本报告统计了每届大赛由参赛者投稿的谜题数量,绘制成图1。与表1结合来看,第五届首次增设最佳谜题奖励、第六届奖励得到升级、第八届放宽字数要求、增设投稿奖励,而这几届恰是参赛者出题数最高的几届。由此可见,除学员基数等基本面因素之外,规则创新对谜题作者的利好确实对谜题创作起到了激励作用。
维护大赛公平方面,第八届大赛首次将组队和单人参赛者分开排名,两个组别的前三名均颁发实物奖励。第八届之前的五届大赛中跻身前十的个人参赛者凤毛麟角,曾经名列前三的仅有@无遥之远 先生一人。为了加强对个人的奖励,早在第五届大赛就尝试过新增每题个人答题者得分最高的奖项,但本质上更像是补充性的奖励;而第八届的新规则在排名阶段实现了两个赛道的区分,具有结构性革新的特征,奖励力度也是空前的。此外,第八届大赛首次将谜题作者得分由满分(20分)改为以当题最高分计算。本报告统计了第三届至第七届大赛共25道题目的单题最高分,其平均值为19.42,仅有8题最高分能达到20分;如将13道赛委题从中剔除,则参赛者出题中仅有3题最高分为20分,每题最高分的平均值仅为19.29。由此可见在原先的规则之下,谜题作者和参赛者在单题得分上的差距很可能过大,影响了大赛的平衡性。而新规则的实施有利于维护谜题作者和其他参赛者之间的平衡,也与第八届大赛参赛者出题数量较多的现状相适应。
提高奖励普惠性方面,第八届大赛的虚拟奖励获奖范围由前二十名扩大到所有答完五题且没有任何一题0分或总分在50分以上的参赛者。在这一规则之下每位参赛者都有获奖的机会,与近年推出的侦探天梯排名相适应,对参赛者形成了更大的激励。
最后,将队伍人数上限首次提高到4人可能是第八届大赛所有规则创新中最受人关注、同时也是影响最为深远的。本届成功报名的135支队伍中,人数为4人的队伍数达到62支,接近队伍总数的一半,说明参赛者对四人队伍存在巨大的潜在需求。除此之外,这一新规使第八届大赛参赛者数量、结构和得分等方面均产生了深刻的变化,这些变化将在后文相应部分详细分析。
总体而言,规则的创新与改革是与大赛和学院的发展相辅相成的,对规则的不断完善和革新促进大赛向提高公平性、增进趣味性、鼓励原创性、加强规范性的方向发展。“周虽旧邦,其命维新”,对规则的大规模创新使第八届大赛成为一个非常重要的节点,从上述介绍中可以看出,第八届大赛的规则创新都有切实的现实依据,发挥了重要的作用。在接下来的“参赛情况”和“得分情况”模块,本报告还将通过一系列指标对这些创新措施具体的成效和影响进行深入分析。

三、参赛情况

参赛者是大赛中最活跃的个体,参赛情况的相关数据是对大赛效果展开全面研究的基石。在这一模块,本报告对参赛者整体数量与结构进行了分层次研究,并对“坐忘”这一重要现象进行了概念界定和量化分析。需要指出,除非有特殊说明,本报告所统计的“参赛者”以各届大赛结果公布帖中的“总分表”为唯一标准,凡出现在总分表中的参赛者(包括总分为0的参赛者)视为成功参加大赛并计入参赛者数量,其余任何情况不计入参赛者数量。另外,第八届之前并未将个人参赛者与队伍参赛者分开排名,故第三届至第七届的“队伍总分表”和“个人总分表”为笔者根据总分表和组队报名帖自行整理。
(一)参赛者数量与结构分析
1、参赛者数量分析

根据大赛规则,参赛者(Competitor)是历届大赛的直接参赛单位,具体又可分为个人参赛者(Individual Competitor)和队伍参赛者(Group Competitor)两类,后者指的是数名个人参赛者以按规则成功报名为标志、自发形成的合作参赛单位。为了对近几届大赛规模有一个大体上的直观认识,本报告首先将一支队伍与一名个人参赛者均视为一名参赛者,对第三届至第八届大赛参赛者数量进行了统计并整理为下图,数据标签代表每届大赛参赛者总数。
[/align]
[align=center]图2 第三届至第八届参赛者数量统计图

如图2所示,自第三届以来,参赛者数量在波折中逐渐上升,大赛规模也在不断扩大。第三届是贝克街杯推理大赛沉寂两年后恢复的首届,对学院的新老学员乃至其他论坛推理爱好者都有很强的吸引力,参赛者达到119名,但之后两届大赛的规模并没有明显扩大,第四届甚至出现收缩。事实上,当时国内几乎所有推理论坛都正在经历严冬,学院当时的学员基数也并不足以支持参赛人数的稳定和增长。但正如@名偵探小品 (2020)所指出,APP的开发使学院重获新生,并在2018年年初《唐探2》热潮的带动下吸引了大量用户,学员基数迅速扩大。正因如此,2018年举办的第六届大赛规模呈现飞跃式增长,参赛者数量达371名,较上届增长194.4%,大赛规模从此迈上新的台阶。第八届大赛参赛者数量再创新高,达到398名,包括112支队伍和286名个人,是第三届参赛者数量的近3.3倍,较上届增长46.9%左右。
虽然这种统计方法较为直观,但将队伍和个人视为同一单位参赛者的做法从根本上忽略了队伍的人数,并未真实、全面地反映大赛的参与情况,例如图2很容易给人留下个人参赛者多于组队参赛者的印象,但按人数计算其实恰恰相反。此外,这种方法也没有体现第八届大赛关于队伍人数的规则创新的成效。因此,本报告将对参赛者结构进行详细分析。
2、参赛者结构分析
参赛者结构指的是一届大赛中选择以队伍方式和个人方式参赛的人数及二者之间的关系。对于一位个人参赛者,当组队的搜寻成本可以忽略时,他实际上可以按自己的偏好自由选择参赛方式,从而个人参赛和队伍参赛具有一定程度的替代关系。反过来,选择任一方式的人数的相对大小也可反映这一方式普遍的受偏好程度,或需求程度。
为了刻画这种偏好的程度,同时也为了弥补前种统计方法的不足,本报告以每位参赛者个人为单位,重新统计了选择两种参赛方式的人数。对每支队伍的人数进行加总,从而得到“队伍总人数”。队伍总人数与参赛个人数之和,即为大赛全部的参赛人数,进而以队伍总人数与参赛人数之比作为“队伍吸收率”(Group Absorption Rate, GAR),用来反映全部参赛者中选择组队的比例。其公式表达如下:
队伍总人数/(队伍总人数+参赛个人数)*100%=队伍吸收率

[/b]

[b]图3 第三届至第八届大赛参赛者结构情况

如图3所示,以全部参赛人数衡量,则第八届大赛共吸引了647名推理爱好者参加,是第三届参赛人数的3.52倍,较第七届增长54.0%左右。与图2的直观印象不同,从图3中可以清楚地看到,每届大赛中的队伍总人数都要高于参赛个人数,队伍吸收率始终高于50%,意味着超过一半的人会选择组队参赛,这也与一般的观念相一致:组队参赛便于集思广益,因此很可能优于单打独斗。而实际的得分情况是否确实如此,将在“得分情况”模块详细讨论。
值得注意的是,六届大赛的队伍吸收率在54.9%至57.9%的狭窄区间内升降交替,出现了明显的往复波动,且与参赛人数之间并没有明显的相关关系。本报告对此的解释是:很多参赛者已经形成了固定的队伍组合,因此队伍总人数中有相当一部分是稳定不变的,从而提供了基础的队伍吸收率,基础队伍吸收率的测算或可成为未来研究的重点。在此基础之上,每届队伍吸收率的变动反映的是当年参赛者整体的组队意愿,因此会受到当年重大事件的影响,具有较强的不确定性。例如第六届大赛中,参赛人数的井喷式增长依靠的是学员基数扩大,大量参赛的新学员一般没有固定的队伍组合,组队难度也相对较大,因此第六届大赛的队伍吸收率出现了显著下滑。而第八届大赛队伍吸收率降至55.8%,甚至跌破上一个波谷55.9%,这主要是由于第八届大赛首次将个人参赛者和队伍参赛者区分排名,大大提高了个人参赛者的获奖机会,对个人参赛行为的激励作用取得了显著的成效。
3、队伍结构分析
上一节在参赛者结构的视角下,对队伍参赛者人数进行了总量分析,下面进一步分析队伍参赛者的组成结构,也即每届大赛中不同人数队伍所占的比例。第三届至第七届大赛中组队方式仅有两人队伍和三人队伍两种,而第八届大赛新增了四人队伍,如下图所示。
[/b]

[b]图4 第三届至第八届队伍人数结构统计图

从图4中可以清晰地看到,第三届至第七届都是三人队伍数占优,第三届至第五届三人队伍数都是两人队伍数的两倍以上。而第六、七届这个倍数分别下降到1.63和1.41,可能由于大量新学员参赛时,组建两人队伍比组建三人队伍更容易。但整体而言,历届参赛者中对三人队伍的偏好程度明显高于对两人队伍的偏好,这也符合“人多力量大”的一般观念。
[/b]

[b]图5 第八届大赛队伍人数结构情况

第八届大赛共有两人队伍31支,三人队伍25支,四人队伍56支。如图5所示,由于新增了四人队伍的规则,两人、三人队伍结构出现反转,三人队伍数首次少于两人队伍数。四人队伍占据了全部队伍的半壁江山,说明参赛者一直对四人队伍有很大的潜在需求,而赛制规则的放开使这种需求得到了释放和满足。
具体而言,四人队伍的放开会对队伍人数结构产生两方面作用:其一为“转换效应”(Transformation Effect),即原本固定的两人或三人队伍可以进一步吸收优秀的个人参赛者形成四人队伍,壮大自己的实力;其二为“替代效应”(Substitution Effect),对于临时组队或新参赛的学员,三种选择是平行的,因此他们有了更多的选择空间,从而原本会选择两人或三人的队伍可能会选择四人队伍。但需要注意的是,在第八届之前,两人队伍也有增加成员成为三人队伍的自由,但许多两人队伍并没有那样做,说明对这些参赛者而言,两人队伍可能已经是他们实现效用最大化的选择,那么在放开四人队伍时,他们同样未必增加人数;而三人队伍更有可能出于“人多力量大”的信念,尽量增加队伍成员人数。因此转换效应和替代效应将对三人队伍发挥更强的作用,促使它们变成四人队伍;而两人队伍更有可能保持稳定,受两种效应的作用也会更小。这样,第八届大赛出现的两人队伍数和三人队伍数关系的反转就可以得到解释。
由上述分析可知,两人和三人队伍数关系的反转并没有违背“人多力量大”的一般观念,反而加强了该结论:有更多的四人队伍产生,恰恰是因为参赛者对人数越多的队伍存在越大的偏好,而三人队伍减少是因为其更易受到转换效应和替代效应的影响。综上所述,四人队伍的规则创新不仅满足了“人多力量大”观念下产生的需求,也在某种程度上对这种观念进行了筛选,具有自我强化的特征。至于这一观念的合理性有多大,同样将在“得分情况”模块进行详细分析。
(二)坐忘现象分析
1、坐忘的概念界定

@我揍系腐神 (2019)在大赛参赛者职业分析中首次提出“坐忘”这一职业,本报告将之引申为一种行为。所谓“坐忘”(Forgetting),指的是参赛者在赛前关于将要参赛、或在赛中关于将会继续参赛做出承诺或明确的意思表示后,临时退出比赛或类似的行为。具体而言,比赛的不同阶段均会出现坐忘行为,据此可将坐忘划分为三个等级。
一级坐忘(First Degree Forgetting)主要发生在组队阶段,指的是参赛者队伍已经在组队报名帖进行有效报名,但却并未参赛答题的行为。从第一题就开始坐忘是此等级的重要特征,根据经验,大赛第一题一般不会困难到令人无从下手的程度,因此发生一级坐忘通常是出于队伍自身的原因,例如队伍成员未协调好时间安排、队伍凝聚力不够强等。需要注意的是,个人参赛者也可以出现一级坐忘,赛前下定决心要参赛但一题未答就是典型的例子。然而此类坐忘往往仅体现为参赛者个人的心理活动,很难直接接受到明确的意思表示,更遑论观测或统计,因此本报告对此不做讨论。相反,队伍的一级坐忘很容易统计,只要比较组队报名帖中“已报名队伍名单”与大赛结果公布中“队伍总分表”的差异即可,出现在前者但未出现在后者的队伍即可认为发生了一级坐忘。
二级坐忘(Second Degree Forgetting)发生在参赛过程中。举例而言,某队伍或个人赛前决定全程参赛,但答完第三题后即退出比赛,后面的题都未作答且没有占楼等准备作答的意思表示,则为二级坐忘。除了队伍自身原因之外,发生二级坐忘的原因还可能包括已答题目不尽如人意,使参赛者失去信心或乐趣;下一道题目难度过高,令参赛者一筹莫展等。然而,很难判断答题者最初是否决定全程参赛,因为确有很多答题者由于时间不充裕等原因,最初的目标就是参与部分答题,也有答题者仅仅选择自己感兴趣的题目作答,将其一概认定为二级坐忘未免太过武断,也缺乏对答题者多样化选择的自由的尊重。因此,本报告不会对二级坐忘情况进行定量分析。
三级坐忘(Third Degree Forgetting)同样发生在比赛过程当中,指的是答题者已经在答题帖进行占楼之后,放弃作答或并未作出有效答题的行为。显然,三级坐忘与二级坐忘的显著区别在于,三级坐忘中答题者已经在答题帖占楼,作出了将要答题的明确的意思表示。除了一、二级坐忘的原因之外,三级坐忘的原因还可能包括一些偶然或突发的因素,例如答题者突然有事而无暇编辑答案、因网络问题而错过提交时限等。
通过对各级坐忘情况的统计分析,可以揭示大赛参赛情况方面的一些深层次问题,接下来本报告将应用上述方法和指标进行详细分析。
2、一级坐忘的量化分析
首先研究一级坐忘现象。基于前述一级坐忘的确定标准,本报告统计了成功报名的队伍数量和实际参赛的队伍数量,并提出“组队坐忘率”(Teaming-up Forgetting Rate, TFR)来刻画每届大赛中一级坐忘的程度,其公式表达如下:
(报名队伍数-参赛队伍数)/报名队伍数=组队坐忘率

[/align]
[align=center]图6 第三届至第八届大赛队伍参赛情况

如图6所示,每届大赛都会有一定数量的队伍发生一级坐忘,且报名队伍越多,坐忘的队伍数往往也越多。自第三届以来,组队坐忘率连续五年走高,第三届至第五届平均队伍坐忘率达到25.3%,这意味着大约有四分之一的队伍发生了一级坐忘。这是由于第三届至第五届期间,网络推理论坛普遍萧条,学院内学员基数也并不大,而第六届大赛的报名队伍数虽然随着学员基数增长有了大幅上升,但新学员队伍的凝聚力往往不够强,从而造成了组队坐忘率继续上升。
值得关注的是,第八届大赛报名成功的队伍共有136支,发生一级坐忘的队伍有24支,组队坐忘率为17.6%,出现了六届以来的首次回落,较去年降幅达36.5%,甚至远低于第三届的水平。而且,第八届大赛的报名队伍数较上届仅增加6支,但实际参赛的队伍却增加了18支。从积极的角度看,这可能是因为报名本届大赛的队伍包括初次参赛的新队伍在内都具有较强的凝聚力,开放四人队伍也可能增强了队伍的活跃度和组队成员之间的黏性;从消极角度看,也可能是因为往届报名但常出现坐忘现象的队伍在本届没有报名,甚至根本没有关注大赛。无论如何,这种转变意味着报名队伍自身的凝聚力和稳定性越来越强,对大赛的整体热忱也越来越高,大赛参赛者的结构趋于稳定。事实上,2018年学员基数的迅猛增长对学院而言是一次偶然事件的冲击,学院需要时间来消化这次冲击带来的影响,并产生一系列自然的调整以达到稳态,组队坐忘率的回落仅是消化、调整过程的一个缩影。总体而言,仅从大赛参与情况和受关注情况来看,此次冲击最终还是使学院走出了严冬,迈上了一个新的台阶。这次冲击带来的影响后面还会多次提及。
3、三级坐忘的量化分析
如前所述,三级坐忘是指答题者已在答题帖进行占楼之后,放弃作答或并未作出有效答题的行为。需要说明的是,本报告所指“并未作出有效答题”的答题帖除无意义的占楼帖外,还包括200字以下的答题帖。做出这种处理有以下几方面考虑:首先,仅用不到200字几乎不可能完成答题的任务;其次,这种字数极少的答题帖出现的原因一般和三级坐忘出现的原因重合;最后从结果上看,大多数200字以下的帖子确实是推理过程较少的断言或猜测。因此,本报告将其视为无效数据,即“无效答题帖”。当然,文字内容低于200字,但附有图片且图片中原创的文字内容超过200字的答题帖不会被统计为“无效答题帖”。
基于此,本报告将每道题答案提交帖下的全部回帖统计为“答题帖数”,从中剔除无效答题帖后即为“有效答题数”(Effective Answering Post Number)。关于帖数的数据均为笔者自行统计。三级坐忘的情况可由答题坐忘率(Answering Forgetting Rate, AFR)这一指标进行刻画,其公式表达如下:
无效帖数/答题帖数*100%=答题坐忘率

[/align]
[align=center]图7 第八届大赛每题答题情况统计图

如图7所示,第八届大赛每题答题帖数和有效答题帖数大致呈显递减的趋势,只有第五题出现了微小的回升;而答题坐忘率从第一题到第五题出现了较剧烈的波动,且波动趋势与答题帖数变动趋势明显并不相关。一个合理的推测是,答题坐忘率是与各题目自身的某种属性相关的。假设这一属性为题目难度,则统计每题全部参赛者总分的平均值即总平均分(Total Average Score, TAS)用来刻画每题的难度,并绘制折线图如下。
[/b]

[b]图8 第八届大赛各题总平均分折线图

对比图7和图8,可以清晰地看到答题坐忘率曲线(AFR Curve)与总平均分曲线(TAS Curve)变动的趋势恰好相反。这与人们的朴素认识完全符合:一道题目的总平均分越低意味着题目难度越大,则在规定时间内难以推理出真相,从而发生三级坐忘的可能性越大,故答题坐忘率越高。进一步对二者进行双变量相关分析,结果表明总平均分与答题坐忘率的皮尔逊相关系数为-0.947,说明二者之间存在很强的负相关关系。以总平均分为自变量,答题坐忘率为因变量进行线性回归分析,结果如下表所示。
表2 第八届大赛答题坐忘率对总平均分的回归分析结果

[/b]

以AFR表示答题坐忘率,以TAS表示总平均分。根据表2所示系数估计值,可得回归方程如下:
[b]

如表2所示,t检验的p值<0.05,说明模型是显著的;R方为0.897,说明回归方程能解释数据变异的89.7%,模型拟合度很高;总平均分对应的斜率系数为-0.042,说明在控制其他因素不变时,一道题目的总平均分每下降1单位,会使该题答题坐忘率升高4.2%。由此可见,三级坐忘对题目难度是极为敏感的,题目难度的增加会使很多已经占楼的参赛者知难而退。
4、答题人数递减的量化分析
每一届大赛中,参赛者都可以直观感受到每过一题答题人数都会越来越少,正如图7所示。这一递减现象是由二级坐忘和三级坐忘两部分组成的,本报告尝试以有效答题数为因变量,测算答题人数递减的具体幅度。由于有效答题数并非严格意义上的时间序列数据,而且即便以六届大赛全部数据为分析对象样本量也仍然太小,所以本报告采用一种较为粗略的估计方法,即以题号为时间变量(自变量)对有效答题数进行一元线性回归分析,第一题对应的时间变量为1,第二题为2,以此类推。回归分析结果如下表。
表3 第八届大赛有效答题数的时间回归分析结果

[/b]

以Y表示有效答题,以X表示时间。根据表3所示系数估计值,可得回归方程如下:
[/align]
如表3所示,t检验的p值<0.05,说明时间对有效答题数能产生显著影响。R方为0.855,说明回归方程能解释数据变异的85.5%,对于一元线性回归模型而言拟合度已经达到很高的水平。截距常量为337.9,与第八届大赛参赛者总数398接近;时间变量对应的斜率系数为-42.9,说明在控制其他因素不变时,每道题的有效答题数将会比上一题减少42左右。由于有效答题数既剔除了回帖占楼但没有进行有效答题的情况,又剔除了并没有占楼就退出大赛的情况,所以可以近似认为,第八届大赛中每道题都会有大约42名参赛者发生二级坐忘和三级坐忘。
这一结论似乎令人有些沮丧,但相信每位参赛者都深知完整答完全部五道题的艰辛之处。在答题过程中,其他事务的压力、遭遇瓶颈时的纠结、答题兴致的消退乃至种种偶然因素,都有可能使参赛者中途离开比赛,也一定有些参赛者原本就只打算回答部分感兴趣的题目,因此答题人数的递减是参赛者自由选择的自然结果,不必然意味着他们对大赛、对推理失去了兴趣和关注。而且仅根据总分表中数据,坚持答完全部五题(即五道题目得分栏均不为空)的参赛者数量在不断上升,第八届中这一数字达到127,较上届增长67.1%。结合组队坐忘率的变动趋势可以发现,坐忘现象整体上发生得越来越少,这标志着自第六届冲击以来,大赛规模增速放缓的同时,能够稳定参赛、坚持答题的参赛者正在逐渐占据主导地位。
根据经验,由于队友之间可以相互鼓励与监督,队伍参赛者发生二级坐忘和三级坐忘的比例应当低于个人参赛者。然而答案提交帖在解禁之后依然无法查看具体的答题者,故无法统计两类参赛者发生三级坐忘的具体数据。
另外必须强调,这一分析方法忽略了很多变量,例如谜题难度和质量。在上一节中已经验证,谜题难度与三级坐忘有很强的相关性,此外前一题的难度也会影响答题者的心态,从而产生具有滞后性的劝退效应,增加二级坐忘。而质量越高、谜面越精彩的谜题吸引力可能越强,从而减少二、三级坐忘。但谜题质量带有主观色彩,不具有直接的量化指标。由优胜参赛者进行的“最佳谜题”投票固然很有参考价值,但由于第八届大赛第五题为院长所作,10名参赛者只对前四题进行了投票,故不能形成有效数据集。因此,本报告采用@END99 发起的 “大赛题民意调查帖” 中的投票结果。截至2021年1月1日,该帖吸引了112人参与,共投出了176票,样本较为充足。该帖投票结果显示第五题得票最高,为62票;不仅比得票数第二高的第四题多出20票,也远高于五题得票数平均值33.8。第五题在广大答题者心目中质量最高,因而第五题的有效答题帖数并未继续下降。
当充分考虑各种变量并引入更多量化指标后,多元回归模型可能更适于描述答题情况的特征。通过数据的进一步收集和统计方法的改进,或许未来能够建立更加精确的模型。

[align=center][b]四、得分情况

得分情况是对参赛者成绩的最终评价,可以侧面反映出题目难度、参赛质量、参赛者得分结构性差异等诸多信息。贝克街杯推理大赛每届满分均为100分,每位参赛者的最终得分是数名评委评分的平均数,本报告所使用的得分数据均来自各届大赛结果公布帖中的参赛者总分表,表中空缺数据视为该参赛者未作答相应题目。第八届之前队伍总分和个人总分未分别列示,为笔者自行整理。
1、有效得分情况分析
在此需要介绍“有效得分”的概念,本报告对大赛得分进行分析时,仅将1分及以上的分数纳入量化研究范围。做出这种处理主要有以下几方面原因:首先,每届大赛中无论个别题目得分还是总分都会出现很多0分或接近0分的数据,从常理上考虑,这种分数不太可能属于认真、详细的作答,因此这些得分并不能很好地代表参赛者的一般水平,参考价值较差;其次,这些过低得分会对后续的统计处理造成较大的困难,并可能产生一定的偏差,因此应当视为异常数据加以剔除;此外,过低得分往往来源于三级坐忘,因此将其视为无效数据也与前述“有效答题数”的处理保持了一致性。在此基础上,本报告提出一组相关概念:有效队伍平均分(Effective Group Average Score, EGA),指全部队伍总分剔除1分以下的得分后取得的平均值;有效个人平均分(Effective Individual Average Score, EIA)指全部个人总分剔除1分以下的得分后取得的平均值;有效总平均分(Effective Total Average Score, ETA)指全部参赛者总分剔除1分以下的得分后取得的平均值。上述指标在各届大赛的情况以折线图展示如下。
[/b]

[b]图9 第三届至第八届大赛有效平均分折线图

如图9所示,三个有效平均分指标的相对大小关系在历届大赛中维持不变:有效队伍平均分高于个人队伍平均分,事实上前者始终保持后者的1.8倍以上,而有效总平均分位于二者之间。“参赛情况”模块提及的第一种观念在此处终于有了事实依据,组队参赛确实会比个人参赛取得更好的成绩。以第八届大赛为例,队伍参赛者最高得分为97.75分,而个人参赛者最高得分为84.25分,总分70分及以上的队伍共有17支,但总分70分及以上的个人只有6名。这说明组队答题确实可以集思广益,而且在队友的监督和帮助之下每个人都能为答题投入更多精力,从而表现出远超个人的整体实力。由此可见,第八届大赛将队伍参赛者和个人参赛者分开排名的做法确保了优秀个人能够取得与其实力相称的排名及相应奖励,提高了大赛的公平性。
此外,队伍与个人分数差的悬殊也同评分机制有关,因为评委在评分时并未区分两种参赛者,而从图9可以看出无论按照队伍得分标准还是总平均得分标准进行评判,实际上都倾向于低估个人参赛者的分数。如能将队伍和个人分为两个赛道分别收集答案,再安排两组评委分别进行评分,或许就既能确保排名的公允,又能保证得分的恰当。当然,这种做法会大幅增加评委的工作量,带来可能是不必要的成本,短期内未必符合大赛的现状。任何规则创新的决策都是平衡公平与效率的艺术,在确保效率的前提下,第八届大赛的规则创新已经在追求公平的进程中有了很大的突破。
接下来对有效平均分整体趋势进行分析。首先需要明确,每类有效平均分指标都会受到三方面因素的影响:评委的主观误差、对应组别参赛者的平均实力、题目的平均难度。在现行的双评委打分取平均、两名评委分差过高时的复核的制度下,评委的主观误差基本可以忽略。在此前提下,本报告假设每届大赛题目的平均难度是相同的。这样假设理由如下:首先,学院仍在发展之中,参赛者对大赛的黏性正在建立,远未达到稳态,在这种现状之下假定答题者平均实力固定不变不切合实际;其次,虽然题目难易可能确有差距,但评委对每道题进行打分的分布规律应当是接近的,由于参赛者人数众多,题目难易的差距就并不显著。而且对题目难度而言,有效平均分本质上是一个后验的指标。因此以下内容都是在假定每届大赛题目的平均难度相当的前提下,通过分析有效平均分的变化研究参赛者整体实力的变化。
如图9所示,有效个人平均分与有效总平均分变动趋势大致相同,且二者差距相对较小,这是由于得分是以参赛者为单位计算的,而个人参赛者数量多于队伍参赛者,所以有效总平均分受有效个人平均分变动影响更大。具体来看,第三至五届大赛期间,有效队伍平均分和有效个人平均分呈现反向变动的趋势,可能是受到优秀个人答题者选择的影响。当很多优秀的个人答题者选择组队时,有效个人平均分就很可能下滑,而有效队伍平均分相应上升。
第六届大赛是一个重要的分水岭。如图9所示,三个有效平均分指标在第六届大赛中均出现明显下滑,且在第七、八届也较之前几届保持了低位。这同样源于2018年学员基数大幅增长导致的新学员参赛热潮,大量新学员、新队伍对参加推理大赛尚无充足经验,新队伍的默契性、协调性和凝聚力也有待提高,从而使第六届大赛的有效平均分出现了下降。而自第七届以来,三个有效平均分都呈现明显的反弹趋势,有效队伍平均分和有效总平均分实现两连升,这同样也是学院对2018年冲击做出消化和调整的一部分。一方面,在新学员注册热潮逐渐消退后仍坚持参赛的参赛者一般建立了相对稳定的队伍关系,参赛经验和答题水平也有所提高;另一方面,随着贝克街杯推理大赛逐渐成为为数不多仍然坚持举办的网络推理大赛,越来越多经验丰富的资深推理爱好者受到吸引,提高了参赛者的平均实力。大赛的规则创新也对此起到了助推作用,第八届大赛中,有效个人平均分出现了近年来幅度最大的上涨,说明在个人与队伍参赛者区分排名的激励下,有更多优秀的个人答题者受到了吸引。在这些因素作用下,有效平均分开始逐渐回升,这也从侧面反映出推理大赛与学院知名度和影响力的提升。未来有效平均分还可能进一步上升,但不太可能重新回到三、四届的水平,毕竟参赛者规模早已不可同日而语。
2、不同人数队伍得分情况分析
上述研究已经表明,从统计学意义上讲,组队参赛确实会比个人参赛取得更好的成绩。在此基础之上为进一步探究队伍内部的得分情况,将队伍按队员人数进一步细分,分别计算两人队伍、三人队伍、四人队伍的有效平均分,同样绘制折线图如下。
[/b]

[b]图10 第三届至第八届大赛不同人数队伍有效平均分折线图

如图10所示,除第四届之外,其余五届大赛中有效三人队伍平均分均远高于有效两人队伍平均分,第八届新增四人队伍后,有效四人队伍平均分又远高于两人、三人队伍。直观上可以认为队伍人数越多,一般情况下得分就会越高,即“人多力量大”的一般观念也得到了验证。为了探究这背后具体的数量关系,本报告选取第八届大赛数据,进行了详细分析。在数据处理中将个人参赛者视为一人的“队伍”,从而根据一人至四人队伍的有效得分绘制分组箱线图如下。
[/b]

[b]图11 第八届大赛不同人数队伍总分分组箱线图

如图11所示,不同人数队伍的有效得分呈现较为明显的差距,尤其是四人队伍有效得分的中位数远高于其他组别,这一结论与观察平均数得出的结论相一致。一人、两人和三人队伍都出现了较大的离群值,尤其是一人队伍离群值最多,说明这些队伍都存在远超平均水平的参赛者,个人参赛者尤其如此。值得注意的是,一人、二人与三人参赛者之间的得分差距并不像想象中那样大,因此本报告采用方差分析的方法对各组之间的差异性进行检验。
需要说明的是,严格意义上,不同人数队伍的有效得分数据未必满足方差分析方法的适用条件。由于各参赛者均是独立完成答题,独立性假设自然得到满足;根据常理推断,正态性假设也应该得到满足,但实际上即便剔除了大量无效数据,有效得分仍然呈现较为严重的偏态分布,各组别中也只有三人队伍的有效得分数据能够通过Kolmogorov-Smirnov检验;虽然各组别之间方差差异并不大,但仍然未能通过Levene检验,因此严格意义上也不满足等方差性假设。虽然如此,但考虑到个别组别的样本量并不大,而且ANOVA检验对后两个假设条件有一定的稳健性,并且该检验未得出显然违背常识或事实的结果,故本报告仍然采用ANOVA方法。通过后续统计方法的调整和改进,或许能够进一步减少技术误差。
表4 第八届大赛不同人数队伍有效得分ANOVA检验结果

ANOVA检验结果如表4所示。方差分析的显著性p<0.001,说明可以认为不同人数队伍之间的得分存在显著差异。为了寻找差异的来源,采用LSD方法进一步展开事后检验,分析不同人数的队伍两两之间得分水平的具体差异。LSD检验结果如下表。
表5 第八届大赛不同人数队伍有效得分LSD检验结果

[b]

[/b]如表5所示,四人队伍与三人队伍之间、四人队伍与两人队伍之间、四人队伍与一人队伍之间均有p<0.001,即有p<0.05,可以认为两组数据之间存在显著性差异;而其余组别之间p>0.05,不能认为两组数据之间存在显著性差异。
上述统计分析的结论是:四人队伍取得的成绩明显高于其他组别,但个人参赛者、两人队伍和三人队伍之间的成绩差距并没有达到统计学意义上的显著性水平。这似乎与图9、图10给人带来的直观印象有矛盾之处。事实上,对第七届大赛进行同样的ANOVA分析和事后检验,检验结果表明个人参赛者、两人队伍和三人队伍得分之间均有显著性差异,因此本报告认为,四人队伍得分非常突出、其它组别之间成绩差异不显著是第八届大赛的独特现象。或许是开放四人队伍造成的替代效应和转换效应对三人队伍影响很大,相对削弱了三人队伍对于两人队伍和个人参赛者的优势。但是队伍人数越多,沟通协调的成本可能会越大,所以队伍人数对参赛效果的增益也存在边际效用递减的现象,“人多力量大”只能在一定范围内成立。目前可以确定的是,四人队伍带来的边际效用仍然是正向的,这一点会使参赛者在下一届大赛中继续保持对四人队伍的高需求,因此四人队伍的规则很可能长久地沿用下去。
得分情况是每名参赛者最为关注的,但受限于数据来源和研究方法,本报告仅对宏观得分情况进行了分析,而未考虑微观层面上答题者的答题体验、队伍成员各自的参与深度等问题。在后续研究中,或许可以采用问卷调查、访谈等方法对这些微观问题进行具体探究。此外,谜题也是衡量大赛质量的重要研究对象,在上一模块,本报告对谜题难度和质量进行了简略分析,但尚未建立系统、详尽的研究方法。如何构建合理的指标来衡量谜题的难度与质量并兼顾科学性、数据易得性和可操作性,是未来研究的重点。

五、总结

作为网络推理论坛,学院长久存续、发展和繁荣的命脉在于学员,本质上也就在于论坛与学员、学员与学员之间形成的链接的韧性,这种链接的建立和维系依靠的是对推理的兴趣和对学院的感情。以推理谜题为核心和网络社区属性是推理论坛的两大特征,也是最值得发扬的优势。
作为爱好,推理元素在人们生活中并不少见,推理小说、推理影视、推理游戏等作品非常丰富。然而,推理谜题这一形式仍较为小众,整体生态也相对较差。通过推理大赛的形式每年甄选并发布高质量的谜题,将大赛打造成论坛的品牌,是提高学院知名度和吸引力的重要途径,同时,组队招募、赛后题目讨论等话题也可以借助论坛社区传播,增加大赛的关注度。而冬季赛的创办、每周谜题的固定发布和学员自发组织的谜题竞赛、小说竞赛的涌现,使学院的活动逐渐覆盖到全年的各个时段,更加高频的链接逐渐建立,对学院的未来发展起到了重要的作用。
本报告一直强调,APP的开发是学院复苏的内部基础,而《唐探2》热度加持下产生的繁荣对学院而言是一种外部冲击。推理大赛是学院景气程度的晴雨表,所以冲击带来的影响立即反映到了2018年第六届大赛之中,具体表现为学员基数扩大、参赛者数量迅速跃升、队伍吸收率出现下降、有效平均分指标大幅下降等特征。冲击之下的这些特征不可能长期维持,学院需要对冲击带来的影响进行消化与调整才能达到新的均衡状态,赛委则通过规则创新来调控和促进这一消化的进程。2018年的冲击及其自发调整将在很大程度上塑造未来学院的样貌,而第八届大赛密集出台的规则创新也将在很大程度上决定未来大赛的发展方向。
第六届之后,大赛规模增速放缓、队伍吸收率出现波折、组队坐忘率大幅下降、有效平均分开始反弹,都是自发调整中出现的显著变化;第八届大赛中参赛者数量再创新高、个人参赛者数量增加、有效个人平均分回升、四人队伍异军突起,都是规则创新取得的成果。经过多年的积淀,学院和大赛的知名度在不断扩大,参赛者数量和结构趋于稳定,很多优秀参赛者能够保持对推理大赛的热情;而规则创新始终致力于维护和促进大赛的公平性、趣味性、原创性和规范性,提高参赛者的参赛体验和奖励质量。二者相互交织、相辅相成,共同推动着贝克街杯推理大赛的发展。作为推理爱好者,我们未必知道自己能否终生对推理这项兴趣保持热衷,但至少在此时此刻,我们有理由对推理大赛和学院保持热情与希望。正如即将开始的第二届贝克街杯冬季推理赛海报中所写,“也许有一天,我们会对网络推理大赛失去信心,但绝对不是今天!”
本帖子中包含更多图片或附件资源

您需要 登录 才可以下载或查看,没有帐号?加入学院

4人评分
英镑 +25
| 发表于 2021-1-16 19:02:44 | 2021-1-17 22:40编辑 | 发自安卓客户端 | 显示全部楼层
拿下沙发再说!!
--------------------------
我是个没有牌面的沙发。
1. 艺术菌算了塞委出题和出题者二者最高分的均值,不如再加个出题者题目顺序和排名顺序(暗示大家多投稿)
2. 没想到第八届在四人队伍的加持下,单人参赛人数还挺多此时应该有个边际效应,但是我不会!感觉四人队伍容易出现负强化(咕一下还有队友)萌新找萌新,大佬配大佬,熟人组队方便骂人。
3. 两人鸽一,另一必鸽。三人鸽一,另易同化。四人鸽一,问题不大。第六届队伍数和第七届差别不大,但其二人队与三人队的差值远高于第七届。可恶,居然对不上坐忘率。
4. 第八届第三题的坐忘率最低是我想不到的hhhhh答了三个意外的我无比难过。后面的公式看得头晕,略过
5. 原来200字只配得一分吗。引用3000分析100字就是我。算这个队伍平均分工作量好大啊...
新年万事如意,推运昌隆!唐探大麦!
登录帐号可查看完整回帖内容
4 | 楼主| 发表于 2021-1-16 19:02:53 | 2021-1-16 20:15编辑 | 显示全部楼层
写在后面

敲下这段话时,已是凌晨。
限于报告体裁的要求,在行文中的语言只能是极其克制和客观的,但撰写报告的全过程中,我心中都有很强烈的感慨,也有一段时间没在学院发帖了,所以非常想讲出来
其实在去年大赛结束后就萌生了写一篇报告的念头。在当下的各种竞技领域,标准化、数据化正在形成趋势,无论运动员、电竞选手还是我最熟悉的竞技辩论选手,他们的实力、战绩等各种信息,逐渐可以用一系列指标和图表进行刻画。推理大赛实际上也是一种竞技,或许也可以对其进行量化分析。于是在八月份就开始了初步的数据整理,但最重要的大赛成绩出来的时候我早已开学了,报告于是就鸽浅了……万幸没有一鸽永鸽,放假回家之后我立刻重拾当时的计划,历时十二天终于完成了这份报告。
坦白讲,写报告的时候是非常惶恐的。整理好的数据在我眼中是非常鲜活的,它忠实地反映了六年来来大赛走过的风风雨雨,而这也是我所亲历的。虽然在基本的范式方面确实有参考很多资料,但大部分内容只能自己编……虽然已经反复校对,但错误和遗漏仍无法避免,更令我担心的是,我的分析和解读是否主观性过强,从而埋没了数据的真实价值?特别是在剔除一些无效数据时,我会担心这是否是一种过于冷漠的工具理性。总之报告就这样在矛盾的心理中写出来了。
写这份报告也非常快乐。对这份报告影响最大的可能是平叔@承平大帝 那篇关于签到和英镑的数据分析,它让我明白居然可以利用专业所学做这么有趣的事情,结果我就和平叔学了一个专业……那篇文从完全不懂到一知半解再到基本读懂,也令我感慨颇深。另外听说平叔那篇文加了精华,当然我并没有在暗示什么大学几年里写了好多好多报告和论文,但都没有写这篇时快乐(自己设计指标并编造英文翻译时达到了快乐的顶点)。这是一种至高无上的成就感。
另外也确实有些辛苦。写这份报告和答大赛题其实有点像:首先要对信息进行筛选、提炼出有效的数据、确定统计方法,相当于线索的收集;之后就是对数据和统计结果的解读与阐释,相当于做出推(口)理(胡)。当思路明确、结果显著的时候自然会有醍醐灌顶的痛快,但也会面临琐碎的工作和频繁的失败。例如第八届大赛有一支队伍队名是五个生僻字,在Excel中完全显示不出来;还是第八届大赛,队伍“玄离”在报名帖成功报名但并没有出现在队伍名单中,这两个小问题导致我队伍数量怎么都算不对,最终只好手动统计……当然也并不是全天都在写报告,因为最近在打工,所以其实是摸鱼……但这十二天里平均下来每天五六个小时总是有的(希望我的老板不要看到)。
回到最初的问题。未来“竞技推理”有没有可能出现呢?有一丝丝的概率或许会有,但可能跟今天绝大部分推理元素的“繁荣”一样,也离不开流量的牵引和资本的推动。其实未来的事情,我们心里都没数。我们以后也会变忙,变老,变秃(划掉),也许在那之前,就已经放弃了推理。但此时此刻,推理这件事情是值得纪念并为之奋斗的,这就足够了。所以对我个人而言,这篇报告最大的价值可能在于一份回忆与纪念,以及对管理猿、赛委、谜题作者、参赛者和所有学院的朋友们的感谢。我觉得我真正做了一件未必有意义,但特别有意思的事儿。这是我对抗生活中荒谬感和平庸感的方式。
最后,非常感谢你们看到了这里。希望朋友们注意身体健康,疫情期间减少外出,多读读推理小说、答答冬季赛也非常好。祝大家新年万事如意,推运昌隆!
2 | 发表于 2021-1-16 19:06:01 | 发自安卓客户端 | 显示全部楼层
我来了!(怎么可以和作者大大抢沙发
登录帐号可查看完整回帖内容
| 发表于 2021-1-16 19:23:05 | 来自小霸王手机 | 显示全部楼层
来啦~
登录帐号可查看完整回帖内容
1 | 发表于 2021-1-16 19:23:10 | 发自安卓客户端 | 显示全部楼层
太牛逼了
登录帐号可查看完整回帖内容
| 发表于 2021-1-16 19:25:47 | 来自小霸王手机 | 显示全部楼层
我的天,有些数据说实话,我真心听不懂,不过我是(诶,都只能叫做去年了,好不习惯),不过能统计这么多也很辛苦,点赞
登录帐号可查看完整回帖内容
| 发表于 2021-1-16 19:39:07 | 显示全部楼层
前排
艺术好专业
登录帐号可查看完整回帖内容
| 发表于 2021-1-16 19:49:52 | 发自安卓客户端 | 显示全部楼层
艺术君太专业了(希望以后能看懂)
登录帐号可查看完整回帖内容
| 发表于 2021-1-16 19:58:17 | 发自安卓客户端 | 显示全部楼层
先赞后看,人生灿烂!
码住慢慢拜读)
登录帐号可查看完整回帖内容
返回版块
123
尚未登录
您需要登录后才可以回帖 登录 | 加入学院