欧宝电竞欧宝电竞

欢迎光临
我们一直在努力

欧宝电竞科技趣话体育——排名的科学

  注:这次的这个话题是我非常喜欢的一个主题,也是一个相当有趣的话题。但跟前面的“体育与语言”不一样,这次的话题涉及到一定的数学知识,话题非常大,难度也要大很多。我会尽量使用通俗的语言来分析文章里涉及的问题,关注点将主要在排名的思想和基本方法层面。

  对于一切竞技项目来说,排名,这是一个永恒的话题。对于锦标赛事,我们需要靠名次来决定冠亚军、升降级,就算没有锦标的角逐,人民群众们也永远对一切带着排行榜性质的名单喜闻乐见,因为只要名字与数字绑定在一起,它们就具备了天然的“强”与“弱”的判据,出现在第一位者,自然会被赋予了“雄霸天下”的荣誉,为众人景仰。

  然而,竞技项目本身非常复杂,一些竞技,比如田径、赛车等竞速项目,或是跳水、体操等打分制项目,同一场比赛就能自动生成名次,但也有很多其他项目,单一比赛只能产生一个胜负结果,这就需要引进专门的排名系统来决定出一届赛事的名次。更进一步,尽管竞技项目能给出一次比赛的名次,但我们仍希望统计出大量比赛之后的综合排名,因为这才真正代表了排名的终极意义。

  对于排名而言,有两个最重要的指标是一切排名系统都必须考虑的,一是权重,二是公平。当样本数量很少,比如只有16个,我们可以让它们打循环赛,或是两两淘汰,权重和公平都很好安排。但当排名系统的样本数越来越庞大时,一个对每个个体都公平的系统,就并不容易设计了。而在体育领域,有时样本很少,比如中超16队,NBA30队,有时样本又很庞大,比如网球、高尔夫等个人项目要数以千计,电子竞技这样的领域样本数甚至能以百万计。在极大的样本库里,正确衡量每一场赛事结果的权重,以及保证所有人的公平,这就不仅是简单的数字计算,而是牵涉到大量数学与统计学思想的复杂系统的模型分析问题了。

  另外,所有排名系统都能分成两种基本的形态——结果型和统计型,或者可以叫做静态型和动态型。前者如一次世界杯比赛,初始时所有样本处在同一起跑线上欧宝电竞,分数都是零,而进行了一系列比赛后,我们通过比赛的结果决定冠军、亚军、四强、八强……这样的一次排名是完全以孤立的结果为依据的,无论时间推移,单次比赛的名次都不会改变,故称为“静态”。后者则如FIFA公布的世界排名,它所给出的是对数年内所有比赛的综合表现的评定,而且是以周期的形式,持续不断地更新,每一期的排名都可能会有变动,这就是统计型的动态排名。在英语里,这两种排名的叫法其实是不一样的,通过实时比赛结果得到的积分排名叫“standing”(比如各种赛事的积分榜),而由大量赛事得到的综合实力评价型排名才叫“ranking”。这两者都是体育领域里不可或缺的模式,也都广泛运用于体育的各个领域。我们下面就通过具体的例子来分析一下这两种排名的模式。

  对竞技项目而言,当样本比较少的时候,获取最具有说服力的排名的首选,势必是让所有样本都充分地相互对抗,因而竞技项目发展出了锦标制,并以决出冠军这一最直接的形式,表现这一排名的权威性。

  但是,锦标制始终要面临一个重要问题——时间。时间意味着对许多锦标赛而言,比赛能够安排的数量是有限的,但赛事组织者必须让这项比赛产生的冠军令每个参赛者信服,这对于上面的两点——权重和公平,就尤为重要了——你不能让本来权重不高的比赛产生过高影响,又或者不能让实力不均等的球队得到不相称的待遇,这就需要人们引进一定的额外制度来弥补。循环制中的平分规则,淘汰制中的种子规则,都是由此而来。

  在时间充裕的情况下,最理想赛制自然是循环制——没有比所有竞争者两两交手更公平的赛制了。对于大型赛事,甚至还需要通过主客场双循环制来达到更彻底的公平。所以在以年度为单位进行的联赛型赛事里,循环制一直是最普遍的赛制。

  但在时间的限制下,几乎没有哪项赛事能真正实现循环制,而且循环制的问题在于,虽然保证了公平,但没有考虑权重的问题,所有比赛的权重一样,这不利于营造体育赛事的观赏性。于是淘汰制应运而生,淘汰制天生的层级属性,尤其进行到最后一战决出冠亚军的特色,无疑是制造观赏性最佳的舞台。

  当然,淘汰制本身是以牺牲了一定的公平为前提的,这就需要引进相应的弥补制度。淘汰制有两个主要缺陷,一是抽签在赛制中的作用太大,影响了公平性,二是每一场比赛的权重都太大,使得小概率事件(弱胜强)一旦发生会造成过重的后果。对于这两者,人们都引进了相应的弥补措施。针对抽签的问题,人们用种子制度来保证实力最强者之间不会过早地交手;针对权重问题欧宝电竞,人们则引进了小组—淘汰制,这保证每一名参赛者都有多于一场的比赛可以参加。

  淘汰制的另一个问题是对数字的敏感,完美的淘汰制度只能是基于2的N次幂(4、8、16、32……)实施,一旦参赛者不是这个数量,种子制、小组制就都会产生一定的问题。人们虽然引进了轮空制度、不均等小组、成绩最好第X名等方式来调和,但实际效果仍然很难达到理想(16年欧洲杯就是一个例子)。而循环制就完全没有这样的问题了,无论多少参赛者,偶数直接循环,奇数则设置轮空即可。

  介绍了静态排名的基本制度,我们看一些特殊的例子,来体会一下人们在排名上有过哪些智慧的创意。

  循环制解决了参赛者起点公平的问题,但并没有解决终点公平问题——循环赛制下,平分的出现是不可避免的。然而体育领域中,很多排名制度并不接受并列,这就需要所谓“平分打破”来化解这一局面。当然,如果体育比赛允许出现平局,平分的可能性会大大降低(但不能排除),但对于只允许胜/负二元结果的赛事,不仅平分在所难免,还很有可能出现三队以上的“连环平”,这就对平分打破提出了更多的要求。目前使用最广泛的有两种平分打破标准——小分制和相互成绩制,当然,附加赛、外部排名乃至抽签,这些也都是人们使用过的方法,这里我们只讨论前两者。

  小分制遵循的是公平原则,既然积分是所有比赛的胜负结果,那么全部比赛的总得失分数就应该作为第二重要的因素。足球是小分制应用的典例,联赛及各种小组赛中,净胜球都是普遍使用的指标。然而不同运动的“小分”性质不尽相同,有些运动是局胜制(排球、网球),有些运动的分数较大(篮球、手球),这使得小分制的适用存在局限性。另一个缺陷是权重的问题,以足球为例,大多数足球比赛的净胜球不超过3个,但如果同一组中存在实力非常弱的队伍,这会导致强队的净胜球排位最后很可能会取决于在弱队身上“灌”了多少(经典例子如04年世界杯预选赛上中国队6:1而被淘汰的尴尬场面),这就是个很不合理的结果。所以我个人一直觉得足球的净胜规则应该设置上限(比如3个),超过后只按上限个数计,或者不计算对排名最低队伍的净胜球。

  相互胜负制则是完全的权重主义,这也是最直观的破平局方式,这尤其适用于篮球等大比分运动,美国的体育联盟也普遍采用相互制。但相互制的问题也显而易见——如何处理三队以上的连环套?当平分者超过三个,其实就又产生了另一个循环,此时要么再计算小分,要么得进一步计算比赛的权重,比如客场赛、优先赛分数更高(美国体育里一般是小分区比大分区权重高),常规时间胜比加时胜分数高等,这会较为缺乏直观性。而且由于相互制的决定性比赛通常不在最后,这很可能会出现在后阶段消极比赛的问题(比如2004年的欧洲杯意大利因为相互制末轮被丹麦和瑞典联手淘汰)。

  前面说到,淘汰赛制度极依赖于数字,几乎只有2的n次幂的参赛者数才能划定出完全均等的分组,但如果现实中没有完美的数字呢?比如一切赛事的外围选拔,都要求在任何数字下都能实现一个合理的入围与淘汰分配(因为参赛者的数量是不确定的),这便引出了不均等划分的问题。

  在没有时间安排循环的情况下,有两种常用的适用任意参赛者数目的划分方式,一是轮空制,二是不均等分组。这两种方法都能保证起始参赛者可以为任意数目,但最后都可以简单决出冠军,也就是都能够进入2ⁿ参赛者淘汰赛的均等形势。

  轮空制是传统淘汰制的简单改进,先让部分参赛者相互淘汰,再跟其余参赛者凑成一个合适的数量(比如2ⁿ),进入接下来的淘汰赛。从数学上可以推导,如果有m支队伍,先确定m所处的2的N次幂区间,即2^nm2^{n+1},我们需要在第二轮时剩下2ⁿ参赛者来两两淘汰,于是我们选出x支队轮空,第二轮的2ⁿ支队便是由轮空的x队和第一轮获胜的2ⁿ-x队组成,那么参赛队伍总数m=x+2\cdot{2ⁿ-x}=2^{n+1}-x。比如有29支队,162932,首轮轮空队伍为32-29=3支,即第一轮26队淘汰决出13队晋级,13队跟3支种子队便可正常进行接下来的淘汰。这个赛制在网球领域应用非常广泛,除了网球的四大满贯需要选拔2ⁿ参赛者,其余各项巡回赛事基本都可以以任意人数开赛。

  不均等分组就很简单了,一般来说我们要尽量让小组的队伍数量相差不超过1个,那么先选定一个基数,确定参赛者数量在它的两个倍数之间,把相应差额补到部分小组里就行了。但不均等分组需要解决一个问题——如何确保容量不同的小组之间的公平?一个可行做法是把种子选手分配到人数少的组,这样能使各组的优胜者相对平衡。有时不均等分组还要面对另一个关键问题——选出成绩最好的第几名,这就需要统一各个不均等的小组的分数,实践中常用的方式是去掉人数多的组里对阵最后一名的成绩,然后按常规平分打破规则对比,但要注意此时就不存在“相互间胜负”了。

  还有一种思路是,先用任意两两对阵或分组赛的方式,把参赛者缩小到一个小范围,然后在这个小范围内打循环赛,这样就不要求最后进入2ⁿ淘汰阶段,同时也能在有限时间内分出具体名次。这个思路适合于参赛者中实力较弱的群体数目庞大的情况,避免实力过于悬殊的比赛消耗赛事资源(轮空制的x受制于m,要是x太小轮空其实意义不大)。世界杯的亚洲区、中北美洲区预选赛采取的都是这样的排名淘汰机制。

  一般的淘汰制有一个固有的问题——只能精确给出前两名,但人类体育界偏偏喜好的是前三名,比如奥运会。如果不愿意并列,就只能打非常尴尬的铜牌赛。因而人们开发了另一种变体淘汰赛制——双败制,这个赛制的一大直接功能就是,能够产生精确的前三名。

  当然双败制的功能远远不在决出铜牌,这个制度设计的初衷是——让所有参赛者能至多失败一次,而传统淘汰制里,一次失败就直接出局了。双败制只能基于2ⁿ参赛者实施,原理是先让第一轮比赛先分出一半胜者和一半败者,第二轮胜败组内各自相互对战,这样第二轮胜者中输的一半正好对上了败者中赢的一半,依次可以类推。最后会出现一个一直未输的胜者冠军,和两支输了一场的败者冠军,两个败者冠军对决的胜者进入决赛,这样前三名就自动产生了。具体流程可以参考下图:

  相比于小组赛+淘汰赛机制,双败赛最大优势在于戏剧性强,在比赛很后段输过的参赛者依然没丧失夺冠的机会,比如16队赛制里可以允许一支队伍在第四场比赛失利,而一般的4组4队赛制,3场小组赛后就不再允许失误了,这给整个赛事带来了更多悬念。但双败赛毕竟有部分(不到一半)队伍只能打两场(而且无论初始数目多少,都必定有四分之一支队只能打两场),这还是不太讨人喜欢的,当然这比有一半一轮游,四分之一打两场的传统淘汰还是好多了。

  关于双败制的详细情况,在这个回答里有很多论述:宋宁世:为什么赛会制体育比赛,比如足球世界杯淘汰赛阶段不能采用双败制?

  静态排名只解决了一次赛事的名次归属,甚至在很多时候,它的价值仅仅是决定出第一名——这多少有些“成王败寇”的残酷性。有些时候,我们会希望关注另一个问题——

  当参与这项运动的样本数庞大的时候,组织两者进行实际的比赛就很不现实了。而实际上我们也并不关心两者究竟要不要进行比赛,我们只关心这两者孰强孰弱,而在任何虚拟的赛事中,强者对弱者的赢面显然更大。换言之,我们需要的是一个关于“实力”(power、strength)的排行。

  在现实中,对于利益相关者,比如运动员或队伍自身,以及博彩公司来说,实力排行是至关重要的信息。即便在群众眼里,任何一个带有“排行榜”“top 10”字眼的话题,那都是人们喜闻乐见津津乐道的谈资。

  对于这种性质的排名,我们首要关心是——时效,不同年份、乃至不同月份,竞技者的实力都有可能发生巨变。所以我们最希望的自然是一份可以实时更新的排名,最好每一场比赛的结果都能立即计算入排名之中。

  另外,在静态排名部分,我们多次提到了“种子”,而种子的决定,就需要依赖于一套实时性的实力排行榜,这个排行榜需要给出非常精确的排位,只有这样才能确定出精确的种子数目。于是,我们需要的不只是排名,而是一个“评分”(rating)系统,这个系统的功能是以完全定量的方式给出所以竞技者的分数,并以此高低进行排位。

  这些要求就给出了这样的系统的性质——动态、统计,一者必须实时更新,二者必须基于许多竞技者的许多竞赛结果。在现实语境中,人们给这个系统起了一个非常形象的名字——天梯。顾名思义,在旁人看来,这番景象颇像一架位次不停更新变化的“梯子”(因为排名榜单看起来总是纵向的),而对于竞技者,这个榜单直接代表了一步一步往上爬的历程,每爬到一个位置,代表自己进入了新的一片天地。在流行匹配机制的电子竞技领域,“天梯”甚至会直接决定竞技者的下一场赛事所要对阵的对手。

  在虚构文学、动漫、影视等的相关讨论里,常常可以见到“武力排行榜”“十大最强XX”等民间研究,这些研究最让人佩服的是,能够从原著稀少的样本和只言片语的叙述中抽象出定量的东西,而且通过间接比较(AB,BC,所以AC)和量级调整(A小胜B,大胜C,所以ABC),竟能得到个精确到每一个位置的武功排位,把书中或许没有交集的角色愣是排到了一起。

  这其实告诉了我们动态评分的关键——间接比较。在动态体系里,我们并不关心所有的竞技者们是否有充分的机会交流——很多时候,两个竞技者可能从来就没有交手过。但关键的是,我们要找到一个对所有群体适用的参照物,这个参照物可能是一个所有群体都可以对比的选手(或者一个假设的选手),也可能是每次胜利的价值程度(小胜还是大胜)。

  另外,由于时间总是在向前推进,评分时就需要考虑时间累积效应的影响。有时我们可以把竞技者的所有结果直接累加,对于搏击类项目(赛事密度低,权重高),生涯指标是关键参数科技,所以青睐于直接比较累积数据。但对于其他赛事,尤其是以队而非个人进行的赛事,由于队伍的人员并不固定,累积指标就并不科学了。

  我们能想到一个简单的改进——以评分当时为基准,往前数一个周期(一年、两年……),计算这个周期的数据。于是,每一次计算新的排名,在增加新的结果的同时,也会减去部分旧的结果。时间对于所有的竞技者都是公平的,将时间作为比较的基准,这不失为一个出色的方案。这个方法我将其命名为“时移区间法”。当今体育界,尤其是奥运范围内的绝大多数个人项目,比如网球、高尔夫、羽毛球、自行车、柔道等,都广泛地采用时移区间来决定个人选手的名次,从而划定下一次比赛的种子排位,FIFA公布的世界排名也使用了时移区间的基本思想。

  另一个重要的指标是结果的重要性——也就是我们最初提到的“权重”,虐菜的胜利和势均力敌的胜利,体现在分数上是绝不应该相同的(这也就是上面的武侠排行思想之一)。所以对于体育领域,我们需要划定不同比赛的含金量,大多数项目用的是非常简单粗暴的办法——设置不同级别的赛事,比如大满贯大奖赛巡回赛,每一级的冠亚季军等名次对应不同分数,换言之,这是事先规定的权重,需要球员主观地去“刷”分数。

  在排名的过程中,我们需要决定一个重要问题——该算总分还是算均分?总分就是把所有结果对应的分数加起来,均分则跟大学里算GPA一样,给每项赛事赋予一个“学分”计算加权平均,这两种方法都是可行的。我们可以想到它们各自的问题——总分制里参赛的数目至关重要,要是一个竞赛者在一段时间内无法参赛(最常见原因即受伤),这会导致其排名骤降。而均分制在原理上无视了参赛场次,这又可能使竞技者参与的积极性打折扣,所以实际应用必定要给定一个最少参赛数目。现实中,网球、羽毛球采用总分制,高尔夫则用了均分制,但总分制还是比均分制普遍,毕竟从体育组织的利益出发,他们也不希望运动员消极参赛影响自己的收入。

  同样,在介绍完了基本思想之后,我们也会看一下人类还有哪些新奇的想法,能够应用于给体育运动的参与者们排行。

  现今的网球、羽毛球等世界排名告诉了我们运动员们参加各项赛事获得的成绩,根据成绩的多寡告诉了我们运动员大致的能力。但这样的评分模式并没有告诉我们所有的信息,其中最大的遗漏在于——它没有体现单一比赛的重要性。比如说世界排名第一的费德勒在两次大满贯的决赛中分别击败了第二和第十,通过这两场比赛他得到的积分是一样的,但对费德勒而言,两场比赛的难易度显然并不相同,他的两次胜利的价值仍需要根据对手的实力进行调整。另外,通过淘汰赛制决出的名次毕竟有限,尤其对于广大实力无法通过赛事前几轮的选手,他们的分数很难有效区分,这只能靠设置更多比赛来弥补,但对于很多无法高频率安排比赛的运动,或者对手匹配相对自由而不依赖锦标淘汰赛制的运动,比如团队运动、职业搏击运动、电子竞技等,就需要一套基于每一次对决结果的修正制度,让单一比赛的结果,而非一次赛事的荣誉排位,来确定竞技者的实力评分。

  如果考虑单一比赛结果,这似乎就是上一章所讲的静态排名,即类似于足球3/1/0制度的积分体系,但我们不能让不同比赛的胜利都对应3(不同比赛的失利倒是可以都是0)。我们可以根据对手实力、比赛重要性、比赛难度等因素,在胜利积分的基础赋分值(例如3)上乘以一个系数,作为每一场比赛的得分,这就实现了一个有区分度的积分制。

  我们最先能想到的修正系数,莫过于对手的强弱。如果两个对弈者在赛前已经有各自的排名和评分,是否可以把它们考虑进来?胜负结果符合排名差距,说明胜利的价值一般(但强胜强还是比弱胜弱更有价值);而胜负结果不符合排名差距,说明这场比赛是“爆冷门”,对于胜者的奖励就应该加大。

  一个自然的修正思想是,考察对手的百分比排位——如果我击败了一名排位高出99%竞技者的对手,那么我的积分可以乘上一个基于0.99的系数,显然对手实力越强,一场胜利的价值就越高。这是一种只看绝对实力的评分法,比如一支排前30%的球队击败了排前10%的球队,前者的胜利可以获得0.9的权重分(系数可以用加法或乘法进行放大)欧宝电竞,而后者的失利则只是按0计算。在统计学里,百分比排位,其实就是我们常说的“分布”(概率密度函数),如正态分布、Gamma分布等。

  当然我们也可以把失利赋上分(或者赋负分,即扣分)。比如规定胜得4分负得1分,同样排前30%的A击败了排前10%的B,那么A得到4*0.9=3.6,而B只得到1*0.7=0.7,两者分差2.9,高于比按胜3负0得到的3*0.9-0=2.7,即一场比赛既考虑了赢者的所得,又考虑了输者的损失。

  有了系数修正的方法,对于其他可能要考察的因素,只要往得分上乘系数就都可以搞定了。一些比较明显的因素,比如主场或客场,可以直接按主场胜和客场胜赋予不同的系数;不同重要程度的比赛,比如足球里的世界杯、洲际杯到友谊赛等,同样可以分别赋予权重值。

  不过此时还有一个问题尚未解决——如何确定排名里评分的初始值?只有初值存在,后续的计算才能够继续。一个简单的处理方法是借鉴上一部分的荣誉积分制,先选择一个时间起点,再根据排名节点之前的各种锦标赛成绩累计出一个不考虑单一比赛结果的名次和评分,此后就可以正常进行一环套一环的推导了。当然在实际的排名系统,比如FIFA的世界排名里,初值决定的程序要复杂得多。

  在实际应用中我们还可能会面临一个问题——参与排名的样本数不够。由于地理或组织的原因,位于不同地域(比如大洲)或隶属不同组织的队伍,也许在自己内部能得到频繁的交手机会,但区域之间的两队可能长年都难以发生交集,这会使得不同区域内同一档次的选手在排名的中下游大量囤积、难以区分。比如足球的国家队领域,不同大洲的队伍想要交手只有两种途径——世界杯或友谊赛,这两者恰为最高和最低的级别,样本数量显然是不够的。

  动态排名的灵魂思想是让交不上手的竞技者之间仍能区分高低,这个问题也就是动态系统设计的重点所在。当然,这个问题的难度也要远比其他高。像FIFA世界排名这样的系统,只考虑了一个简单的修正——将不同区域本身再进行一次排名,进而在每场比赛中再乘上一个系数,比如欧洲、南美球队的系数为1,亚洲非洲只有0.85,但这个排名本身也需要根据时间调整,比如FIFA就是以每一届世界杯为节点来修正这个系数。现行FIFA世界排名在这方面其实还是比较简单,区域系数基本只有欧洲南美一个档,其他大洲一个档,所以FIFA排名里欧洲和南美整体明显比凌驾于其余各洲之上,对于欧洲南美的弱队与亚、非、中北美的强队的关系缺乏考量。

  实际应用中,系数积分制采用的机械区别不同区域强度的算法的限制仍然很明显,而且区域强度系数并没有解决不同区域难以碰面的问题,它的实际结果只是进一步扩大了强与弱的代差,看起来像是“为了体现实力差距”而主观“凑”出的评分差距,这甚至还带有一定歧视的意味。

  在1970年,一位匈牙利裔数学家Arpad Elo,发明了一套全新的排名计算方法,主要用于计算国际象棋选手的实力。这种算法适合于处理非常大的数据样本,而且适用于由样本之间没有充分交流的孤立区间组成的集合。这套算法的另一个强项是,无论样本容量多大,它算出的结果的数量级是稳定的,于是它非常适合制定头衔——比如国际特级大师、特级大师、候补大师等等,只要竞技者的分数达到一个规定值并保持一段时间就行了。而正是在这套算法下,前面所说的“天梯”也就有了非常形象的意义——梯子每一级的分数是固定的,这自然给了人们冲击的指标,这就更像一个爬梯子的过程了。从原理来说,这个算法可以称为“等级分”,但为了纪念Elo的贡献,这个算法被直接命名为Elo评分法(70年代还有个匈牙利人Rubik发明了以他名字命名的Rubiks Cube)。

  我先不用数学公式来解释一下Elo算法的原理:我们假设世界上已经存在非常多的竞技者,他们的实力足以形成某个统计学上的分布,在他们的基础上,新加入任何数量的成员都不改变分布的属性。一个统计学分布会自然产生一个所有人实力的“期望”,进而能算出任何两个有分数的成员相互对阵,发生胜平负结果的期望。当双方实际对阵产生结果后,我们对比实际结果和期望值,并根据这个结果,给双方各自一个新的分数。

  用公式来解释就是,假设A和B各自有积分Ra和Rb,期望n=400,在这里Elo算法常用Logistic分布(当然也可以视情况使用正态分布、伽马分布等)。假设一场比赛的胜和负对应分数1和0,于是通过比赛,A得到分数的期望是E_{A}=\frac{1}{1+10^{(R_{B}-R_{A})/400}},B得到分数的期望E_{B}=\frac{1}{1+10^{(R_{A}-R_{B})/400}},Ea、Eb都在0~1之间 。当A和B进行了实际的比赛,实际结果为Sa和Sb(一者为1一者为0),对于A,我们用一个修正系数K,计算出A的新分数Ra,则R_{A}=R_{A}+K(S_{A}-E_{A}),对B同理。这样每一次结果就都能够产生A和B各自新的分数,这个分数只取决于A和B,不受任何其他选手影响,这也是这个系统能产生稳定的分数节点的原因。可以看出,对于这个系统,只需要决定两个关键参数:期望n和权重系数K,但我们同样可以考虑平局结果、以及不同赛事重要性等指标,这些乘到系数K上作为修正就可以了。

  前面的修正系数法里,我们必须有三个决定性的变量——固定长度的时移区间、对手的绝对强度,所有人分数的初始值。但Elo算法的原理正好相反,不需要选定周期,不看竞技者分数的高低(只看分数差值),也不需要确定起点,理论上可以从这个项目诞生的那一天起,一直算到今天。而且分数不会受参赛频率影响(不参赛则分数维持不变),所以即便一个选手退役,分数也能一直保持在榜(只要他不从榜单脱离);而一个选手从零分开始,只要有稳定的胜率,很快就能跻身更高层级。

  我们可以看到,这套系统本身就使用了统计学方法,所以它对于容量大的样本有天然的适用性。而且它充分考虑了强弱之间的均衡:如果你能稳定地战胜自己的同级对手,根据上面公式,即在E=0.5左右的比赛里能稳定获得S=1,那么你每一场都能净赚0.5K的分数,在同级别(无论强弱)分数变动不大的情况下,你能很容易脱颖而出,爬到下一个层次。如果一个弱者持续战胜强者,即在E趋近0的比赛里拿到K的分数,他的分数会迅速爬升;而强者如果总去虐菜,双方的(S-E)只是在0附近徘徊,强者赚不了,弱者也不会亏。

  在体育界,Elo算法早已走出了国际象棋,被推广到了大多数智力运动上。但由于算法较复杂,尤其依赖统计学方法的算法在一些小样本体系中不一定能适用,因而大多数团队运动的官方层面目前还没有接纳Elo方法,只有一些民间机构有一些足球、篮球等领域的Elo排名。

  虽然Elo排名已经有近半个世纪历史,但创始人可能想象不到,这个排名在互联网时代竟焕发出了极强的活力,这得益于电子竞技的高度需求。互联网使得统计超大样本的竞技者成为现实,而Elo评分提供了一个绝佳的“匹配”制度。我们可以选取Elo分相近的选手对战,使得胜和负都会产生适度的结果,胜多会向上爬,匹配到更强的阶层,负多则向下,匹配稍弱的群体,在计算机和互联网的作用下,即便在人数以万计,结果更新以秒计的电竞世界里,我们仍可以得到可靠的定量排名结果。

  基于Elo评分的统计学分布和修正积分理念,又有人设计了一个名为Glicko评分的改进版本,这个评分考虑了方差的作用,在这里我们就不讨论了。

  本文的最后部分,我们举一些当今体育界的例子来看一下动态评分系统是如何运作的。

  网球ATP/WTA排名:采用荣誉积分总分+时移周期制,计算一年。运动员参加的不同级别的比赛对应不同分数,每一场赛事不同名次得到不同积分,周期内所有积分累加即为当期分数。但是从2016年开始,奥运会成绩不计入积分排名中。

  羽毛球世界排名:与网球的方法大致相同,计算一年。奥运会计入排名并作为最高级别计算。

  高尔夫世界排名:荣誉积分加权平均+时移周期,计算两年。参加不同比赛对应不同权重分,由赛事名次和权重分得到平均。但规定如果周期内参与的赛事少于40场,平均分依然要按40计算。奥运会成绩也不计入排名。

  FIFA世界足球排名:修正系数积分+时移周期,计算四年,但四年成绩的权重按1.0、0.5、0.3、0.2递减;胜、平、负对应3、1、0,但点球胜为2,点球负与平相同;世界杯、洲际杯、预选赛、友谊赛对应系数4.0、3.0、2.5、1.0;对手强度直接由(200-排名)/100,即按线性分布算;欧洲和南美区域算1.0,其余各州算0.85(世界杯后有轻微调整),跨洲则取中间值。最后把所有系数乘起来,作为一次比赛的得分。现行的排名算法是2006年时重新设定的体育,但目前的争议很大,尤其这排名有很大空子可钻已经不是秘密,14年世界杯的瑞士,本届的波兰,都靠钻空子刷成了种子,对手系数、区域系数等的设置也都受到了大量批评。

  FIBA世界篮球排名:大致类似FIFA,计算周期七年,也有时间递减系数。不同之处一是胜负方都有分数,并且分数受分差影响,二是考虑主客场对比赛结果的影响,三是对手强度不直接算排名,而是计算排名与“平均排名”的差值。

  世界橄榄球排名:采用一个独特的“交换分制”,单场结果同样由胜负、比赛权重、主客场、对手强度等算出,但一支球队每获得一个分数,它的对手B就要失去同样的分数,原理上是胜者正分、负者负分的算法,即考虑输者损失。这个积分不考虑时移周期影响,初始值从有史以来的第一场开始计算,新球队加入时则按30分起步。排名方式参考:Rankings Explanation

  世界足球Elo排名:这是根据Elo算法计算的非官方世界足球国家队排名,目前采用的排名是从1970年起算,而理论上也可以从足球运动有史以来第一场国家队比赛起源。相较于FIFA排名,Elo排名多考虑了主客场和净胜球关系(在系数K上修正),但不考虑洲际强度。具体排名可以参考其官网:World Football Elo Ratings。

  世界足球俱乐部排名:对于足球俱乐部层次的排名,有多家民间机构进行过尝试,目前最常见的是非官方网站Club Rankings and Statistics计算的足球俱乐部排名,这个排名原则上属于Elo算法,计算范围包括了全世界的所有国家曾经有资格参与洲际俱乐部比赛的球队,以及主要国家的前两级联赛。带有一定官方性质的排名的例子是欧足联的俱乐部系数,这个是类似网球的荣誉分数制。

  美国NCAA大学橄榄球碗赛排名:美国的NCAA大学体育联盟是一个非常奇特的组织,这个组织实际是十来个分会的组合体,每个赛季基本只是在分会内部打比赛,球队极多,但交流机会很少。然而美国体育又极其青睐于打全国决赛(所谓Bowl Champions Series),这要求每一年都得在一大堆没有交流的分会中列出一个非常精确的排名。理论上可以用Elo评分解决,但每年一度排名的特性使得Elo似乎不太适用。所以美国人使用了一个多系统联合式的方法,其中一部分是由投票来决定,即由三个授权机构邀请行业内专家、教练根据比赛结果投票出一个排名,另一部分则是由多个由计算机算法生成的排名,最后的排名还要由去掉最高最低的方式决定。由于这个系统过于晦涩难懂、也非常不透明,每年都有学校被莫名刷掉,故而其争议也相当大。

  UFC冠军排名:这是另一个投票式决定的排名,UFC比赛以一名选手的生涯数据为基本指标,但不同选手的参赛场次数、获胜的方式差别极大,很难用单纯的数字指标表达排名。所以也就干脆直接采用投票制,由相关媒体机构自行选出每个级别的排位,包括一个跨级别的综合排名,最后进行汇总。当然这种非常主观的排名只能作为参考,官方并没有针对排名划定严格的对阵标准。欧宝电竞欧宝电竞欧宝电竞欧宝电竞

未经允许不得转载:欧宝电竞 » 欧宝电竞科技趣话体育——排名的科学
分享到: 更多 (0)

欧宝电竞带给你想要内容

联系我们
网站地图