世界杯来啦!
相信不少球迷最近都没少熬夜看球,就连小编这种伪球迷,都被世界杯的气氛感染了。
每天晚上比赛时刻,作为惯例式娱乐节目,小编的朋友圈都会被各种猜球赌球的消息刷屏,也不知道票圈大神们都是根据什么来预测比赛结果的(求带飞~),各种翻倍赚。
咱们今天就来聊聊无敌神算子的故事。
要说预测结果神准,大家应该都忘不了八年前大明湖畔的章鱼哥保罗吧~
2010年南非世界杯上8预言8命中,加上2008年欧洲杯6次5中的战绩,章鱼哥以综合92.85%的准确率名噪全球,可惜预言帝已逝去...... 没大腿可抱了。
还有最近被巴西同胞diss的球王贝利,他发推说:“你们的行李箱里,并不是只有衣服,还有2亿人对你们的期望,希望我们能够为你们的成绩庆祝。”
此言一出,让巴西上下十分不安,他是在预测巴西队要夺冠,大家都知道他是乌鸦嘴,他说要夺冠,那么,这届巴西队基本上凉凉......
其实,预测这种事儿吧,一半靠分析,另一半基本靠运气。这也是为什么博彩业成百上千名分析师拿着各种数据绞尽脑汁最后得来的赔率和预测结果,还不如章鱼哥准……
那有什么解决办法吗?
《麻省理工科技评论》报道,如果我们用最近几年研发的机器学习技术预测世界杯结果,就很有可能比主要靠猜的传统预测更准确!
首先,我们来看看你有没有成为下一届神算子的天赋?
硬实力_初阶
Data Analyst/Business Analyst
Basic/Intermediate SQL (MySQL, Microsoft SQL, AWS Redshift, etc.);
Basic/Intermediate Excel (Chart, Trend, Vlookup, etc.);
Basic/Intermediate Excel (Chart, Trend, Vlookup, etc.);
Basic statics.
硬实力_中阶
Experienced Data Analyst/Junior Data Scientist
Advanced SQL (Regular expression/Window functions);
Intermediate Statics (understand some basic statistical learning models, A/B test, P-value, etc.);
Visualization tools (Tableau, Power BI, QlikView, etc.);
Basic/Intermediate; programming skills (Python, R, SAS, etc.);
Basic relational database scheme design.
硬实力_高阶
Advanced Data Analyst/ Data Scientist
Advanced statics (know the theories of all the typical statistical learning models);
Advanced programming (Python, R, Scala, Java, etc.);
Advanced database design (Relational database and non-relational database);
Intermediate/Advanced knowledge of typical cloud services (AWS, Azure, Google Platform, etc.);
Familiar with big data related tools (Hadoop, Spark, Hive, etc.);
Understand/Familiar with data flow and data architecture;
Familiar with ETL process;
Linux System/Shell Script;
Swiss army knife.
必备软实力
Problem-solver;
Storytelling;
Curious, enjoys learning;
Persistent;
Enjoys communicating;
Questions/Challenges results;
Data driven thinker;
Business sense;
Teamwork.
完成上面的自测之后,咱们开始好好聊聊Data Science、AI 以及 Machine Learning究竟给了我们什么预测结果~!欢迎留言吐槽分享反驳分析,大胆说出你的预测结果!让我们来和“阿尔法狗”们比一比!
在 2018 年世界杯开幕之际,全球多家权威机构都发布了他们的预测结果。一个很大的亮点是,有不少机构都采用了机器学习的途径来进行预测。然而更有趣之处在于:不同机构的预测结果竟然完全不同(这就很尴尬了)……
德国人:西班牙是冠军
德国多特蒙德工业大学统计学系的助理教授Anreas Groll 带领团队对比赛结果进行了大胆的预测,他们所采用的方法叫做“随机森林方法(Random Forest approach)”。
Groll 教授介绍,随机森林是一种融合了统计学和机器学习的方法。它常被人拿来和决策树,另一种更为人所熟知的统计方法比较。
决策树和随机森林的区别很好理解。就拿世界杯正赛来说,一支球队最终夺冠的几率并不是瞎猜出来的。大家都知道,球队夺冠的路径是从每组四支球队的小组赛前两名出线,然后经历八分之一决赛、四分之一决赛、半决赛、总决赛才能夺冠。
如果你找一个常见的决策树系统来判断,它在 32 进 16、16 进 8、8 进 4、4 进 2 和决赛的每个阶段都进行大量的计算,最后可能得到一个十分怪异的结果,比如,中国队夺冠之类的……
因为它在当前阶段做出的决策,都高度依赖上一阶段的决策。这就好比一棵树,如果从根部就长歪了,再怎么往上长,也只能是在歪的上面不断进行修正,还有可能更歪,最后长成一棵扭曲的,现实中根本不可能存在的树……
至于随机森林,名字已经很直白了:简单来说,随机森林就是一座由很多决策树所聚集而成的森林,然后用所有决策树的结果进行投票,得出一个多数的、近似于平均的结果。
大多数 “决策树” 在后期都会因为不可靠因素过多而影响决策模拟结果的准确性,这些决策由于不一致和分散的训练数据(training data)而失真,这种现象叫做 “过度拟合”(overfitting)。而 “随机森林方法” 则通过多次计算随机分支的结果来尽量让结果准确。“随机森林方法” 取多次随机决策树的平均值,以此绕过 “过度拟合”。
在这个研究 “到底谁能获胜” 的模型里,有些考量的因素是我们能想到的,比如该球队在国际足联排名、球员平均年龄、球队里有多少名球员在冠军联赛踢球等因素。
除了这些明显对预测结果有帮助的因素,这个模型还包含了一些看似无关紧要的因素,比如国家人口、国内生产总值、甚至包括执教教练的国籍。
该团队很有诚意地模拟了足足 10 万次足球比赛,并根据 2002 年到 2014 年之前所有比赛的成绩,使用了三种不同的建模方法。用这种方法预测出来的冠军是——西班牙!
根据预测结果,西班牙夺冠的概率是 17.8%。如果说这个概率还不是很 “自信” 的话,这个预测说西班牙能冲进四强的概率则高出不少,足足有 73%!可以说是相当有信心了。
而这个研究对卫冕冠军德国队的预测是:“能不能闯出小组赛难说,但如果小组赛没被淘汰,德国队进四强的几率高达 58%。” 真的是很实诚的德国研究员。
不过按照这种方法计算,中国男足来自一个人口众多的国家(加分)、中国 GDP 也全球第二(加分),但连世界杯的门儿都摸不到... 难道这种模型不适用于中国男足?
当然,或许是中国男足的世界排名太低了,拉了这项预测的后腿。中国男足全球排名低到什么程度了呢?这么说吧,下次你再抱怨网速太慢的时候请牢牢记住,我们的网速世界排名都比国足要高。
高盛:最后冠军是巴西
高盛用的同样是随机森林模型,只是用了更少的参数,严格限制在球队和个人级别的指标上,基本上做了一个高级版的“足球经理”游戏系统。
最后只有五个主要指标或者变量,相关性从高到低:球队评级、球员评级、球队近期表现、对手近期表现和球队近期进球势头。
凭什么说西班牙和阿根廷表现低迷?做了 20 万次模拟(比多特蒙德工业大学多了一倍)之后,高盛经济学家认为抽签导致西班牙和阿根廷在小组赛、淘汰赛就被迫面对强敌,而前面提到的五个指标打分,这两队在面对巴西和法国时表现不会太好。
以下是高盛公司分析结果中的几个关键数据:
1. 巴西有望夺得第六个世界杯冠军,他们在决赛中将战胜德国队成功捧杯。前者的进球期望值是1.70,后者则是1.41。
2. 尽管法国队夺冠的整体概率高于德国队,但是由于他们有可能会在半决赛中遭遇巴西队,他们进入决赛的概率更低。
3. 英格兰队有望闯入四分之一决赛。根据高盛公司的预测,他们将被德国淘汰出局。
4. 在预测中,西班牙和阿根廷队都不被看好。根据高盛公司的说法,这两支球队都将止步四分之一决赛。
5. 虽然俄罗斯是本届世界杯的东道主,但高盛公司还是认为他们将在小组赛阶段出局。
6. 沙特阿拉伯队有望成为黑马,他们将力压俄罗斯队从小组中突围。
虽然最终的预测结果已经出炉,然而足球依然还是一种难以预测的运动项目,高盛公司也无法对每一种比赛结果做出评估。基于此,这份报告的作者也在最后附上了一份免责声明:
“我们利用最先进的统计方法,精心分析世界杯的随机性。通过这种方法,我们分析了大量的信息,”他们说道,“但是即使使用了最严谨的数据分析手段,预测依然有非常高的不确定性,这是因为足球本身就是一项不可预知的运动。当然,这也就是世界杯的魅力所在。”
然而高盛过去几年的预测其实都挺歪的:比如 2010 年预测总决赛巴西对德国,结果夺冠的是西班牙;2014 年又说巴西会夺冠,而且概率高达 48.5%——哪想到巴西在半决赛被德国 7:1 血洗(不知道今年的预测,会不会又是一口毒奶啊喂!)......
艺电:点球大战法国险胜
艺电 (Electronic Arts) 旗下拥有运动类游戏大厂 EA Sports。你可能不知道的是,这家备受游戏迷喜爱的厂牌,同时也是顶级比赛结果预测最准的机构……
在过去的 14 场美国职业橄榄球“超级碗”比赛里,EA Sports 正确预测了 9 场的结果;说回世界杯,四年前,在一大票看好巴西队的预测结果里,EA Sports 特立独行地选择了德国。
上个月,EA Sports 宣布了 2018 年世界杯的预测结果。今年,它选择了法国作为冠军。
EA Sports 估计,巴西将在四分之一阶段被比利时送回老家,无缘复仇雪耻;法国和德国将分别击败乌拉圭和哥伦比亚;西班牙也将以 1:0 击败克罗地亚晋级四强;到了全欧洲阵容的半决赛阶段,法国将 2:1 击败比利时,德国 3:1 击败西班牙。
最后的决赛,EA Sports 预测,德国和法国的对决将会十分精彩:高卢雄鸡拖住了德国战车的节奏,双方在 90 分钟内战得难解难分,1:1 的比分将一直延续到加时赛结束,直到运气将取代实力的地位,决定这场大战的结果。最终,法国点球大战 4:3 终结德国的卫冕之旅。
看完了“阿尔法狗”们的预测,你的预测是什么?欢迎留言吐槽分享~ 不接受diss!
这周三晚上欢迎来Data Science 8小时速成班,一起深入了解大数据!说不定,下一位神算子就是你!
两位资深导师坐镇,手把手教你从入门到精通,所有你想知道的,你该了解的,通通教给你!
导师团队
Alex Ji
澳洲国立大学 Information Sciences and Engineering 博士,精通数学建模,大数据分析,和机器学习,拥有6年学术领域和5年行业领域工作经验,已成功辅导多名学员拿到数据分析相关职位的offer。
Coco Fu
现任KPMG Senior Consultant,曾担任EY Data Analytics Consultant和Suncorp Pricing Analyst。拥有墨尔本大学精算师学士学位及Business Analytics硕士学位。在大数据分析,私募基金交易合规,和金融市场投资分析领域拥有丰富经验。
2小时专业Data Science教学,原价$159,
第一堂课优惠价只要 $59!
为保证课程质量,仅限39人,
现在最后10个余位!
扫码抢票手慢无!
对高阶课程也感兴趣?
或是想跟导师一对一聊聊职业规划?
扫码加小编
统统满足你!
参考文献:
https://arxiv.org/pdf/1806.03208.pdf
https://hackernoon.com/world-cup-2018-whats-tech-got-to-do-with-it-55c3090fa266
https://interestingengineering.com/scientists-predict-world-cup-2018-winner-using-machine-learning
https://k2partnering.com/predictive-analytics/machine-learning-and-the-world-cup-whos-the-robots-favourite/
https://www.pbs.org/newshour/science/to-beat-vegas-bookies-at-the-world-cup-these-statisticians-turned-to-artificial-intelligence
https://www.businessinsider.com.au/world-cup-predictions-pick-to-win-it-all-goldman-sachs-ai-model-2018-6
https://www.casino.org/news/world-cup-winner-predictions-by-ai-computer-at-odds-with-bookies
https://www.easports.com/fifa/news/2018/ea-sports-predicts-world-cup-fifa-18