我是怎么成为一名数据科学家的

原创 2017年12月06日 Infinity澳洲职业咨询



据统计,90%的Infinity学员

都在3个月内成功找到理想工作


今天这篇风趣幽默又干货多多的文章

                                            出自Infinity朱凯导师

                                                编辑:Infinity小编



正文之前,先回答一个问题。在上一篇文章里,我举了用Excel表查看数据的栗子。有朋友说了,现在都用数据库啦,65536完全不是问题。其实如果你用新版的Excel,65536也完全不是问题。数据库,SQL,我们以后都会讲到,这都是作为一名数据科学家,应该熟练应用的工具。我之所以举这个栗子,主要是向完全没有接触过数据科学的读者描述一下,当数据量变得无比大的时候,我们传统的查找信息的方法是很难应付的。如果你有幸学习过Computer Science或者IT,那么肯定学过数据库,这些问题也就不是问题了。


好吧,言归正传。很不好意思地说,今天是吹牛时间,讲一下我用8个月拿到澳新银行(ANZ)offer的故事。相信等你读完,肯定会对自己信心大增。



故事缘起于迷茫

2016年12月中旬,我终于提交了博士论文。过完圣诞和新年,剩下的只是等待盲审老师的回音。匆匆四年,说快也快,犹记得2012年12月15日,我刚下飞机,看到墨尔本机场硕大的中文欢迎招牌,恍惚以为飞机还在上海。四年后,突然结束了每天戴月而归的科研时光,停下来,除了一丝放松,更多的是迷茫。我想在看这篇文章的各位朋友,一定也体会过这种迷茫。学业马上结束,却并不知道自己路在何方。都说天高任鸟飞,但是坚定的怀疑自己没有过硬的翅膀。如果你身边还有一位娇滴滴的女朋友瞪着水灵灵的大眼睛看着没毕业没工作没房子没存款没绿卡的你,啧啧,那酸爽。



这种感觉很是煎熬

我每天想做些什么事,却无处着力。于是回想,在漫漫求学路上,可曾有什么真正的引起过我的兴趣?还是有的,那就是写程序。我本科专业是自动化,程序写的不多。可是写程序真的挺有趣的。我想,也许我可以做一名程序猿,将来变身攻城狮。于是想起我在知乎上看过一篇文章,类似“学完五门CS基础课,助你找到IT工作”之类的。我有努力的学了前两门。结论就是,课是好课,可是学起来真的很费力。而且CS牵扯的东西实在太多了,五门课是远远涵盖不了的



我对天空说:此路不通啊!

天空回应我:那试试别的。


于是再努力回想,想起16年10月底参加了两个学术会议,当时看到好多深度学习(Deep Learning)的文章。事出反常必有妖,Deep Learning这么火,一定有原因。那不如学一下Deep Learning吧,实在不行,出门忽悠忽悠说不定也能混口饭吃。于是大概看了一下Deep Learning,发现是基于机器学习(Machine Learning)发展起来的。好吧,Machine Learning,你又是什么鬼?



Machine Learning,并不是什么鬼,而是一系列数学方法的集合。注意!看到这里的朋友,我知道你们可能已经有看不下去的冲动了,但是不要被突然出现的“数学方法”和“集合”六个字吓倒了。今天不讲数学,只讲故事。相信我,这点数学,你绝对可以应付的了的。继续讲故事。有关于Machine Learning,大家都说,Coursera网站上Andrew Ng的Machine Learning课很不错。Andrew Ng此人,姓吴名恩达,美籍华人,业界大牛,你们以后会经常见到的。


Andrew的课不难,很快就突击上完了。接下来是不是就可以开始得瑟了?哈哈。于是三月参加了一个活动,叫做Hackathon,中文可以翻译为编程马拉松。其实没那么高大上,就是分析数据啦。结果被虐的要死要死的。发现自己那点Machine Learning知识,在真实数据面前,简直毫无用武之地。第一战就这么灰溜溜的收场。



如果你爱的人虐的你遍体鳞伤,那你怎么办?当然是选择原谅他/她。于是再战。参加活动的时候发现,大多数搞数据分析的人,使用的编程语言是Python或者R,而我作为一名科研狗,只会MATLAB。于是接下来的一个多月时间里,恶补了Python和R。怀揣着新的武器和激动地心情,迎来了四月的Melbourne Datathon,另一个数据分析的大型活动。


这里插播一段。

我们的文章就是这么随性,想到哪写到哪。



墨尔本是一座非常适合生活的城市。这里依山傍海,风景秀丽,美食众多,这应该是众所周知的了。更让人感到开心的是,这里的IT届非常活跃,会举办各种各样的meetup,我经常流窜于这些meetup,能够认识业内人士,了解大家都在做什么东西,用什么工具。更重要的是,如果运气好,会有人直接在meetup上招聘,不妨当面递个简历。如果你也在墨尔本,不要浪费这里的美景美食,也不要浪费这里的meetup。



言归正传


这个Melbourne Datathon,包括两部分,第一部分是一个为期一个来月的数据分析比赛。今年的

数据来自于澳大利亚几十间药店最近几年的病人购药信息。有几千万行记录。比赛并没有规定具体的题目,参赛者可以挖掘任何自己觉得有用的信息。我们组有大神,队友也很给力,最终顺利跻身前五名。


这个比赛的第二阶段,是Kaggle网上竞赛,题目是根据病人在2016年之前的购药记录,预测2016年病人购买治疗糖尿病药物的可能性。我虽然学完了Andrew的Machine Learning课,但是对于构建模型,却完全是门外汉。于是突击研究了一下Kaggle上面其他比赛别人的流程以及方法, 建立了一个非常笨拙的模型。最后的结果还算可以,50几人参加比赛,我排名15左右。考虑到有很多人的专业就是研究Machine Learning,我觉得我的排名并不太差。而且我草草建立的模型,竟然也有95%以上的准确性。



比赛结束后留了简历给举办单位,然后就有幸收到了ANZ的面试邀请。我面试了两个组,就简称A组和B组吧,最后都收到了offer。大概讲一下面试流程,给想要在墨尔本找工作的朋友们作参考。


A组的面试分两轮。第一轮主要是讲一下自己的背景,为什么要申请这个职位,有什么优势,这种非常常见的面试问题。第二轮是给一组数据,给一周时间,做数据分析,然后讲给面试官听。


B组的面试有好几轮。第一轮是展示一个自己做过的数据分析项目。第二轮是onsite coding,主要考察Python和SQL。事后想来,都是很简单的题目,但是因为是第一次在澳洲找工作,当时心情比较紧张,发挥很一般。第三轮也是给一组数据,给一周时间,做数据分析,然后讲给面试官听。




整个过程,从6月开始,经过两个月的面试,终于在8月2号和16号,分别得到了两个组老板们的认可,有幸能够得到工作的机会。在此要隆重的感谢一起参加比赛的队友们,没有队友的帮助,我一个人是走不到今天的。这篇文章写的有些流水账了,各位客官先别走,下面我快速做个结尾。



01


首先,通过我对Datathon比赛的描述,大家应该能够体会得到,数据科学家真的是在解决非常实际的问题。还是举这个药店销售的栗子,如果我们能够得到非常好的模型,有非常好的准确度,那么我们就可以定向向这些病人投送广告、打折信息,一方面可以让病人用更优惠的价格买到最适合自己的药物,另一方面也可以更好的促进药品的销售。当然,这只是一个比赛,在实际工作过程中,我们面对的是更加复杂的问题,可能也没法得到有这么高准确性的模型。但是一般来说,如果有一个规模不大的数据科学家团队,所能解决的问题,以至于创造的效益,是和team size完全不成正比的。我想这也是为什么数据科学如此火热的原因。


02


其次,大家应该能够看到,我进入数据科学的过程有点误打误撞,走过很多弯路。如果你有心转行做数据科学家,那么一定不要看完此文之后,顺着我的步骤来一遍,这是没有太大意义,并且非常耗费时间的。



 导师推荐 



资深导师 - 朱凯

Data Scientist

ANZ


Kai曾担任IBM的产品工程师,目前在ANZ担任数据研究科员,曾获得墨尔本Datathon数据科学:前5名,Kai对Data Science有着极高的热情,他已经完成了几个相关的学习课程,其中包括在Coursera的Andrew's Machine Learning。 Kai还参加过多个数据科研活动和Kaggle竞赛,活跃于墨尔本的数据科学/机器学习/ Python / R meetup等科研小组。



被朱凯导师的经历吸引?

想要与他约咖啡?

快联系小编吧!


戳 [Infinity懂你团支书 - Dora]

Infinity助你拿下Dream Offer


成功

案例


Infinity往届学员成功案例

收藏 已赞