厉害了我的哥,UQ美国大选预测,我就用最科学的方法去啪啪啪打脸。UA教你数据预测美国大选

原创 2016年11月09日 澳洲IT匠人圈


点击上方“公众号”可以订阅哦

封面

希拉里再坏,也只是叛国,受贿,资助战争,与IS有瓜葛而已。而川普可是侮辱女性啊,他可是种族主义啊。FBI 只用八天历史最快速度澄清希拉里“All Clear”。其中的事情,明眼人也能猜个一二。应该把本期的封面人物颁给FBI,不过小编还要活命,还是算了。早已被所谓的“政治正确”捆绑的美国人,他们去追求了平等,但却忘记了自由。平等跟自由是两码事。不管选希拉里还是川普,都是民主的最大笑话.

此文章不讨论邮件门,不讨论黑客,不讨论他们的政策,也不讨论他们的政治悟性,我们讨论下用科学的方法去预测一下大选结果。

由于本篇文章较长,灯泡君做了一个小的目录供大家参考

  1. 澳洲昆士兰大学李雪教授预测美国大选
  2. 社交媒体逆袭分析
  3. 名人影响力
  4. 通俗讲讲深度学习Deep Learning
  5. AI 不要怕,至少有我们呢

UQ预测美国大选
来膜拜下IT界的黑客F4,不过今儿我们不讨论“黑科技”,而是来讲讲“白科技”。“大数据”,”深度学习“,”神经网络“等词越来越多地被提及,它已经渗透到当今每一个行业和领域,并成为重要的生产因素,你没听过任何一个词都很难。
此次,不介绍黑客F4,而是昆士兰大学(University of Queensland, Australia)李雪教授,李教授和他的团队已经做出了在线预测大选工具。用李教授的话来讲,就是
世间万物均可视为不同的个体,而每个个体之间都有着千丝万缕的联系,比如,重要性、兴趣、影响力、风险性或以上联系的组合,所以,“大数据”的出现为我们更好地感知世界开辟了一条新途径。
        通过李教授和他团队的方法论,已经成功预测了2013年的澳洲联邦大选和昆士兰州的选举,准确率达95%。目前大选局面变得很胶着,这次和以往的大选很不同,两位候选人都有很多负面的东西。过去我们预测时着眼于正面的意见但是现在是双方的负面新闻。
        11月4日,“希拉里依然领先,但变得越来越难”李雪教授说。FBI重启调查邮件门,也让希拉里的道路变得扑朔迷离

李教授和他的团队也制作了在线搜索和分析工具(http://election.uqcloud.net/DL/us)
 长按图中二维码直接查看在线工具

经过24小时不间断从社交媒体比如Twitter的搜集数据和分析,我们能看到预测获得大选概率的改变。

Trump在美国南部做得很好,但是如果不是希拉里的周末的邮件门,还是会预测是希拉里获胜。FBI重新倒戈,算法最后给出了,希拉里会有52.47的概率获胜



除此以外,根据Sentiment Analysis和 深度学习(Deep Learning)算法,算法重新做了优化。美国的选举更加地域敏感性,每一州都有选举人进行最终选举,这就带来了许多变数。通过对Twitter数据收集和分析,每一州都有很强的倾向性。把这一些问题分成了十七个分类:移民,堕胎,枪支,对外政策,税,同性恋婚姻,公共健康,经济,工作,公民自由,犯罪与安全,环境,教育,财政预算,国家安全,医疗,退伍军人,和能源. 如下图两人在不同领域的赢得概率。
插个广告
同时我也为我的母校老东家做个广告,2017年开始UQ(University of Queensland)开始有数据科学专业硕士(Master of Data Science),欢迎申请,funding多多,美女很多,帅哥更多。因为美国是多民族国家,用的语言多种多样,李教授的引擎爬行了各大social media,然后进行语义分析,分析不同种族在各种热门话题的看法和评论。 这一套搜索引擎,也被昆士兰大学用于管理他们自己的学生和教职工。因此这套引擎也经过多年的“feed”来自不同的国家或民族的语义。这也是为什么这么多学生会选择来昆士兰大学学习Data Science 而不是其他的学校。其中,数据与知识工程实验室(Data and Knowledge Engineering,简称DKE, http://www.itee.uq.edu.au/dke/home) 是国际数据库顶级会议ICDE 2
013的承办者,并且在2015年要再次承办国际多媒体顶级会议ACM MM 2015

长按二维码可直接查看硕士详情

Twitter 分析
那我们Universapp来告诉看官为什么要用社交媒体来做大选预测,而并非传统的传统媒体去做直接大选结果统计呢。

社交媒体的数字媒介来探险。但是这种尝试是非常艰难的,因为数字媒介上的数据更概略,并且通过媒体分析并不容易知道你所要到达的目标人群。正如《纽约客》的那则卡通所说,

“在互联网上,没人知道你是一只狗。"


社交媒体无法准确预测非人为干预的时间,例如自然灾害或天气,但鉴于虚拟世界中社交媒体的“社交”性质 - 每天在平台上有无数的互动和共享 - 此信息足以在人类行动下提供一套指标。毫无疑问,选举是一个完全人为的决定。这意味着社交媒体可以成为选举结果的指标,关键是如何预测,如何做出合理选择的数据。

什么是体现选民意志的首要指标?Twitter提及总量
在对选举进行预测的模型中,第一个重要衡量指标就是总提及量——如果一个候选人被大量地提及,这至少意味着他/她的声音产生了共鸣并到达了很多人。当然众多变量依然存在,尽管我们直观地认为数量并不能反应民众的情绪,但是大量的研究都表明提及总量比起情绪是更加准确的指标。究其原因是因为提及总量能够直接代表人群中候选人的人气,而情绪则有可能受到单一新闻或事件的影响而做出反应甚至转向。

2011年都柏林大学的研究表明,根据他们的政治情绪和预测模型分析,选举中的推文总量甚至是“最关键的单变量”。他们的结论得到了慕尼黑大学的研究支持,这是更直接的:“Twitter的数量反映了选民的喜好,并接近传统的投票结果。因此,twitter的总数的参考可以用于预测在某些测量方法下的美国总统选举。

如果基于这个数据做最简单的指标预测的话,川普(Trump)或许正在通向白宫的大道上大步前进。

当然,今年的运动与往年有些不同。特朗普已经在Twitter上总统选举之前有大量的追随者。由于他的团队的媒体运营,他具有巨大的国际意识。因此,与之前的候选人相比,特朗普拥有更好的媒体优势。结果,加上特朗普轻微神经质的言行和他的高媒体精明(他知道如何吸引眼球),他在压倒性的Twitter上的数量可能会误导,特别是在大量的声明情况下的负面情况。 基于这一点,需要包括更多的因素来分析特朗普这种独特的情况。

情绪监测

既然我们都认为有川普有大量的负面评价,那么第二个指标自然是看看民众对川普到底持有怎样的情绪反应。但是过往的自动化的情绪监测在精准度上是存有雷区的。其中最大问题之一就在于自动化的情绪监测无法分析讽刺性话语进而造成结果的曲解。但是这对于分析民众对川普的情绪显得尤为重要。但是如果考虑进这个因素并纳入分析模型,又会产生怎样的结果呢?

使用基本的查询工具HappyGrumpy得到相应的结果后,我们发现针对川普的民众情绪其实是非常积极的。这个数据呈现的上个月的情况,川普在上个月经历了一个巨大的跌幅,但是也仅仅微微落后于希拉里,并且没多久他就成功地触底反弹。

将这些具有争议的调查结果综合来看,对双方竞选人情绪评分的很难做出任何明确的判断。

支持增量
情绪监测无疑具有一定的参考性,但是依然难以帮助我们进行给出明确的判断,那么下一个应该纳入的因素又是什么呢?
另外一个需要测量的则是twitter上关注者的增长。使用Twitter Counter,我们可以看到川普在过去一个月内新增了595,777位关注者,而同时段内,希拉里获得了285, 541位关注者。


名人影响力
通过社交媒体的统计,大约统计出了150位,大选最大影响力者,如图

最能影响大选结果的是竞选者自己本身,同时Trump是最能影响自己的竞选者,希拉里紧随其后

在众多支持希拉里的明星中,最拼命的应该是水果姐Katy Perry了。不遗余力的在各个媒体中支持希拉里当选. 是为了格莱美奖吗


什么是Deep Learning 

那本着学习的态度,如何去预测大选,预测股票赚不赚钱,大红的Deep Learning到底是什么。


机器学习究竟是如何运作的。

通过应用统计学学习技术,研究人员可以开发能够自动识别数据中所存模式的计算模型。为了实现这一点,这个模型需要在大数据集上进行训练,通过这种训练来发现数据中的边界和关系。数据越多,准确度就越高。 


那我就给一个更直接的例子。就以撩妹为例。男女恋爱我们大致可以分为三个阶段:

1.初恋期。相当于深度学习的输入层。别人吸引你,肯定是有很多因素,比如:身高,身材,脸蛋,学历,性格等等,这些都是输入层的参数,对每个人来说权重可能都不一样。
2.热恋期。我们就让它对应于隐层吧。这个期间,双方各种磨合,柴米油盐酱醋茶。
3.稳定期。对应于输出层,是否合适,就看磨合得咋样了。

大家都知道,磨合很重要,怎么磨合呢?就是不断学习训练和修正的过程嘛!比如女朋友喜欢草莓蛋糕,你买了蓝莓的,她的反馈是negative,你下次就别买了蓝莓,改草莓了。

深度学习也是一个不断磨合的过程,刚开始定义一个标准参数(这些是经验值。就好比情人节和生日必须送花一样),然后不断地修正,得出图1每个节点间的权重。为什么要这样磨合?试想一下,我们假设深度学习是一个小孩,我们怎么教他看图识字?肯定得先把图片给他看,并且告诉他正确的答案,需要很多图片,不断地教他,训练他,这个训练的过程,其实就类似于求解神经网络权重的过程。以后测试的时候,你只要给他图片,他就知道图里面有什么了。

我们塑造了我们的算法,然后它再来塑造我们

AI 只能根据历史数据对未来进行预测,这就是为什么通过过去的美国总统图像训练的神经网络预测唐纳德·川普(Donald Trump)会赢得这次选举,因为过去的美国总统都是男的,数据没办法推断性别是不是模型的相关特征。所以,更多的因素需要考虑进去,综合分析。

然而,事实上,我们每个人在社会中的身份是动态的、复杂的,其中包含很多矛盾的因素。根据我们的社会背景,我们可能会有不同的行为,这就需要我们的 AI 助手在不同的场景下替我们做出不同的决策。
个人的身份就像棱镜,人们会通过很多不同的视角来看你

推荐文章

IT招聘 | 澳洲11月第二周最新招聘信息,悉尼布村阿德莱德,更有PM职位


Apple的时代结束与微软我原谅你!新世界的大门已打开


渐进扁平:漫谈手机App设计趋势,扁平设计美学的终极指南


原创 | 风暴来了在家怎么办,IT Online学习平台吐血整理

我们是谁

        Universapp是一家面向全球提供解决方案与服务供应商,致力于通过创新的信息化技术来推动社会的发展与变革,为个人创造新的生活方式,为社会创造价值。Universapp拥有自主研发的系统,大数据和机器学习算法。 公司主营业务包括:行业解决方案、产品工程解决方案及相关软件产品、平台及服务等。包括IOS,Android,Web消费级平台级及企业级开发,对SEO也有相当长的经验。团队由行业顶级IT人才组成,只做情怀产品。
        
        
 
Universapp
微信:universapp

Bring stunning products to life
长按二维码关注
点击阅读原文,查看更多
收藏 已赞