n代表锦标赛中球队的总数

来源:未知   作者:admin   更新时间:2019-10-04   浏览次数:

 

  然而,关于双变量泊松的案例,Groll、Kneib、Mayr和Schauberger(于2018年)供给了一些,若是两个合作团队的高消息量协变量都包含正在两个(前提性)泊松分布的强度中,那么角逐分数的依赖布局能够被恰当地建模。他们包罗了欧洲杯数据的一大组协变量,并利用提拔算法(boosting approach)来选择一个用于预测2016年欧洲杯的稀少模子。因为双变量泊松分布的依赖性参数从未被提拔算法更新过,所以有两个(前提性)泊松分布就脚够了。

  导语:令泛博球迷兴奋的2018年俄罗斯世界杯即将起头,对于球迷来说,每一届世界杯中,除了球员精深的球技之外,惹人关心的还有对夺冠球队的预测。比来,多特蒙德工业大学(Technische Universität Dortmund)的Andreas Groll传授,根特大学(Ghent University)的Christophe Ley传授、Hans Van Eetvelde传授,慕尼黑理工大学(Technical University of Munich)的Gunther Schauberger传授比力了一些脚球角逐得分的建模方式,并利用一种基于随机(决策)丛林的建模方式,利用国际脚联的排名,平均春秋和冠军联赛球员数量,国度生齿比率,国内出产总值,以至锻练的国籍等要素,对2018年世界杯脚球赛进行预测。

  图2:条形图显示了,使用于FIFA世界杯2002—2014年数据中的随机丛林中变量主要性,得分数量用做响应变量,论文第2部门描述的变量用做预测变量。

  正在最简单的环境下,泊松分布被视为(前提性)的,次要取决于团队的能力或协变量。例如,Dyte和Clarke(于2000年)将此模子使用于国际脚联世界杯的数据中,并让两支参赛步队的泊松强度取决于他们的国际脚联排名。Groll和Abedieh(于2013年)以及Groll、Schauberger和Tutz(于2015年)别离对欧洲杯和世界杯数据别离考虑了一组潜正在的有影响的变量,并利用L1赏罚方式来检测相关协变量的稀少集。基于此,对2012年欧洲杯和2014年FIFA世界杯的赛事进行了预测。这些方式表白,当涉及到很多协变量和/或单变量的预测能力事先不明白时,正则化估量方式可能是无益的。

  正在这项研究中,我们比力了三种分歧的脚球角逐得分的建模方式,而这是按照它们正在2002年至2014年四次国际脚球联盟世界杯(FIFA World Cups)的所有角逐中进行的预测性表示进行的:泊松回归模子(Poisson regression models),随机丛林(random forests)和排名方式(ranking methods)。前两种方式基于团队的协变量消息,尔后一种方式估量脚够的能力参数,而这些参数反映了当前团队的最佳实力。正在这个比力中,正在锻炼数据中表示最好的预测方式是排名方式和随机丛林。然而,我们表白,通过将随机丛林取来自排名方式的团队能力参数相组合做为附加的协变量,我们能够大大提高预测能力。最初,我们选择这种方式的组合做为最终模子,按照其估量,2018年世界杯将会被频频模仿,并获得所有参赛步队的获胜概率。较之卫冕冠军,该模子略微方向支撑西班牙。此外,我们供给了所有球队正在所有锦标赛阶段的概率以及最可能的锦标赛成果。

  图3:按照FIFA世界杯的100,000次模仿运转以及按照ODDSET赔率获胜的概率,为所有32支球队进入2018年世界杯脚球赛分歧阶段的预测概率(以百分比暗示)。

  就像之前的2014年世界杯一样,即将正在俄罗斯举办的世界杯也惹起了若干位建模师们的留意,他们试图预测出锦标赛的冠军。有一种方式曾经为过去欧洲锦标赛(欧洲杯)和国际脚联世界杯若干项赛事取得了合理的成果,这种方式是基于赌注登记经纪人(bookmakers)的几率中所包含的预期消息(Leitner、Zeileis和Hornik于2010年、Zeileis、Leitner和Hornik于2012年、2014年、2016年提出)。现正在,对于如许的主要赛事,赌注登记经纪人正在锦标赛起头之前为获胜者供给一个赌注。通过将若干家正在线赌注登记经纪人的获胜几率汇总并将其为获胜概率,反向锦标赛模仿可用于计较特定于团队的能力,关于这一点可Leitner、Zeileis和Hornik(于2010年提出)的论文。凭仗球队特有的能力,所有单场角逐都能够通过配对比力进行模仿,因而,获得了完整的锦标赛课程。Zeileis、Leitner和Hornik(于2018年)预测巴西将以16.6%的概率博得2018年世界杯,其次是(15.8%)和西班牙(12.5%)。

  同样的三支球队被银行UBS的一组专家确定为最受欢送的球员,但具有分歧的概率和分歧的挨次(Audran、Bolliger、Kolb、Mariscal和Pilloud,2018年):他们获得最受喜爱的球员,获胜概率为24.0%,其次是巴西(19.8%)和西班牙(16.1%)。他们利用一个基于四个要素的统计模子,而这四个要素将表白球队正在角逐期间的表示将若何:Elo评分,球队界杯之前资历赛中的表示,球队正在前几届世界杯锦标赛中的成就和家庭劣势。该模子通过利用前五场角逐的成果进行校准,并进行10,000次蒙特卡罗模仿(Monte Carlo simulations)以确定所有球队的获胜概率。

  取基于协变量的泊松回归模子亲近相关的是基于泊松的脚球步队排名方式。次要思惟是找到可以或许反映当前团队最佳实力的脚够多的能力参数。以一组角逐为根本,然后通过最大似然法(maximum likelihood)估量那些参数。Ley、Van de Wiele和Van Eetvelde(于2018年)研究了各类泊松模子,并对它们的预测机能进行了比力。由此发生的最佳模子是泊松模子以及Karlis和Ntzoufras(于2003年提出)的最简单的双变量泊松分布。风趣的是,Ley等人(于2018年)发觉,这些模子正在国内联赛和国度队角逐中的表示都优于敌手。这些基于统计力量的排名为国际脚联的排名供给了一个风趣的选择。

  另一个被证明正在预测之前的国际脚球锦标赛(如欧洲杯或世界杯)成果中有价值的模子类,是泊松回归模子的类,它间接对两个合作团队正在单场角逐中的进球得分进行建模。设正在i和j队之间的角逐中,Xi j和Yi j别离暗示第一和第二队的方针,此中i,j∈{1,...,n},n代表锦标赛中球队的总数。假设Xi j〜Po(λij)和Yi j〜Po(μij),此中λij和μij暗示响应泊松分布的强度参数(即期望的方针数量)。对于这些强度参数,存正在几种建模策略,它们以分歧体例将合作团队的能力或协变量包罗正在内。

  一种完全分歧的建模方式是基于随机(决策)丛林(random (decision) forests),这是一种由Breiman(于2001年)提出的用于分类、回归和其他使命的集成进修方式。该方式发源于机械进修和数据挖掘社区,而且起首通过正在锻炼数据上建立大量所谓的决策树进行操做的。然后,通过采用预测类的模式(正在分类中)或平均预测值(正在回归中)来总结单个树的预测成果。如许,取常规决策树比拟,随机丛林削减了过度拟合的趋向和方差,因而,它是常用的强大预测东西。正在Schauberger和Groll(于2018年)的初步研究中,分歧类型的随机丛林曾经取保守的计数数据的回归方式(如上述泊松模子),正在包含2002 - 2014年FIFA世界杯的所有角逐的数据上对预测机能进行了比力。事明,随机丛林供给了很是令人对劲的成果,而且凡是要优于回归方式。并且,他们的预测表示现实上要么接近以至跨越做为天然基准的赌注登记经纪人的表示。这些成果激励我们正在目前的研究中利用随机丛林来计较即将到来的2018年FIFA世界杯的预测。然而,我们将证明,若是可以或许对反映国度队目前的实力的团队能力参数进行充实的估量,并将其做为附加的协变量,随机丛林现有的很是超卓的预测能力能够获得进一步的改良提高。

  很多研究人员曾经放宽了对前提性的强烈假设,而且引入了分歧的可能性来将依赖分数考虑正在内。Dixon和Coles(于1997年)起首确定了得分数之间的一个(轻细负)相关性。因而,他们引入了一个附加的依赖参数。然而,他们忽略了一个现实,即模子中的强度参数,包罗两个团队的能力(或协变量)本身是相关的。因而,虽然以能力为前提,泊松分布被假定为的,但它们是边际相关的。Karlis和Ntzoufras(于2003年)提出用双变量泊松分布(bivariate Poisson distribution)对两个团队的得分进行建模,该分布可以或许注释得分之间的(正)相关性。虽然双变量泊松分布只能注释正相关性,但基于copula的模子也答应负相关性(可拜见McHale和Scarf于2007年、McHale和Scarf于2011年或Boshnakov、Kharrat和McHale于2017年所提出的概念)。

 


Copyright 2018-2020 世界杯指数 版权所有 未经授权,严禁转载,违者将被追究法律责任。