×

2018年世界杯大数据预测,这两个球队将进行最终的决赛!

96
我爱编程学习
2018.06.07 12:36* 字数 1416

2018年俄罗斯世界杯快来了,今年的大力神杯又将花落谁家?

想必每个球迷心中都有自己的答案。但是对于那些银行家、投资商们来说,想要预测冠军,光靠一片热诚之心、以及对足球技术的理解,是不够的。

他们要的是数据。

近日,瑞银集团(UBS)发布报告,通过10000次数据模拟验算,活生生把今年的冠军给“算”了出来——他们就是卫冕冠军德国队。

德国队在2014年巴西世界杯夺冠

据彭博社17日消息,瑞银集团近日发布了题为《投资与足球:2018俄罗斯世界杯》的报告。这份17页的文件总共由一个18人的团队共同完成,对世界杯的赛程、比赛结果做出了分析。报告将入围决赛圈球队的数据输入电脑,在经过10000次验算后,得出了“德国队夺冠”的结论。而巴西、西班牙、英格兰、法国分获2到5名。

瑞银预测的2018世界杯冠军

此外,报告通过分析ELO等级分(注:统计学中估认对弈水平方法),对8个小组的出现情况进行了预估。其中A组的乌拉圭、俄罗斯将“轻松出线”;战况最激烈的“死亡之组”E组和F组中,德国和巴西突破重围的可能性最大。

各小组ELO等级分对比

另外,对于一些热门赛事的预测,瑞银也不放过:比如开幕战俄罗斯对阵沙特(俄罗斯胜概率78%)、伊比利亚德比(西班牙68%)、阿根廷对克罗地亚(阿根廷74%)、英格兰对比利时(英格兰57%)、以及排名倒数的一组对决(埃及对沙特,埃及54%)。

瑞银总结的一些热门比赛

不过大家不要当真,因为瑞银的预测有过“黑历史”。2014年世界杯时,这家机构认为巴西能夺冠,但桑巴军团最终以1-7遭德国战车“血虐”,止步半决赛。

计算均值、构建泊松模型

泊松分布适合于描述单位时间(或空间)内随机事件发生的次数。如某一服务设施在一定时间内到达的人数,电话交换机接到呼叫的次数,汽车站台的候客人数,机器出现的故障数,自然灾害发生的次数,一块产品上的缺陷数,显微镜下单位分区内的细菌分布数等等。

从泊松分布的应用实例中可以看出非常适合世界杯的预测,所以今天我们要建立泊松模型来模拟本次比赛。

若进球数 x>4 ,强制 x=4 。这是因为热身赛双方实力差距过大,德国8:0马来西亚,这种差距在世界杯决赛圈是很难看到的。

亚洲球队与欧洲球队水平存在一个差异值,需要整体乘以一个系数。韩国场均进2球,相比德国场均1.5球,韩国的对手亚洲球队居多,德国打过欧洲杯对手实力不俗,韩国的场均2球必须打折扣。

在本次预测中我将使用一款软件(Logis PMT)进行python脚本的开发,最后我将补充说明该软件。首先我从OPTA获取到每场球的比分,通过用软件的python脚本对数据进行清洗,得到干净的数据框用来建模。

以下为软件的部分截图与使用情况:

接下来我们计算球队进球率、失球率。

上面我们提到了泊松模型,这里i,j指代两支球队,Xij表示两队比赛中主队进球数,Yij表示客队进球数。Φij表示主队进球率,Ψij表示客队进球率, 通过我们采集的赛事比分数据,可以利用极大似然估计方法将进球率、失球率估算出来。

得到计算结果,按进攻实力排序(尾部的球队没有列出来):

可以看出德国,西班牙,法国,葡萄牙名列前四,阿根廷,巴西等紧跟其后,当然这仅仅是进球率,失球率方面巴西很低,所以个人认为巴西与德国是有望竞争今年世界杯的冠军的,而且今年的巴西大将云集,单数内马尔的加入我相信今年的桑巴军团也能强上不少,我希望巴西能完成上一届世界杯一雪前耻,加油巴西!

对于世界杯的预测,世界上有千奇百怪的方法:有利用“乌贼”的名人来进行反向预测的。不过临近世界杯,数据君还是在这里预祝各位球迷观球顺利,只要开心就好。

最后如果您是对大数据分析感兴趣的朋友,欢迎来和我们一起学习哟!

日记本
Web note ad 1