年薪10K+的数据分析师如何收集数据?

原创 2020年08月28日 Seed读职场



作为当下最热门的职业之一——数据分析师,他们的工作几乎离不开各种各样的数据,而根据相关报告,数据分析师有51%的职责,用来收集数据。


但从哪里收集数据呢?接下来 Seed小助手将会和大家一起解答这个问题。




数据共享和日志收集


尽管数据分析师在最近几年才火起来,但其工作核心——数据,却是一直存在,且随着数据的不断增加和完善,过往的数据会被数据人员完整地收录到共享的数据平台或数据接口,数据分析师可以直接从这些数据平台或数据接口中调用数据。


根据清华大学软件学院发布的《2020年顶级数据团队建设全景报告》显示,目前国内数据团队从业者常用的大数据平台/接口排列前三的是Hadoop Hive、Spark SQL和Cloudera CDH,使用率分别是19.3%、13.4%和4.1%。


而在一些著名的国际企业里,像IBM、Intel和Facebook,他们的数据分析师也都在使用Hadoop这个大数据平台。



以上的数据平台或数据接口,是基于全球各行业的数据共享。若国内的数据分析师想要收集企业内部的原有数据,他们大多会选用Flume、Scribe等开源日志收集系统。这些日志收集系统,会收集企业内部的业务日志数据,为企业员工提供离线或在线使用。


而在国外、包括澳洲的大多数企业,他们会选用SolarWinds、KiwiSyslog和SolarWinds等本地的日志管理工具。




互联网爬虫


对于数据分析师而言,“计划赶不上变化”是常有的事,新出现的数据常常会来不及收录到数据平台或数据库里;而他们在进行分析时,却往往需要结合最新的数据,从而得出相关的结论;因此,数据分析师除了可以调用原有的数据,还可以直接从网络上采集最新的数据。


根据思科在2016年的估计,互联网的流量已经超过十亿亿字节,因此,互联网数据已经成为了全球数据分析师的重要数据来源。


在网络上采集数据,程序员们也称为网络爬虫;而对于数据分析师而言,常用的网络爬虫软件是Python。因此在《2020年顶级数据团队建设全景报告》中,Python成为了国内数据团队从业者最常用的数据分析软件;同时也是最影响澳洲数据分析师薪资的技能之一,影响率达到了4%。


9月5日晚8点

(悉尼墨尔本时间)

Seed Career数据分析公开课

第二讲Python爬虫讲座与你相约

老师带你一起爬seek上的岗位

从此告别手动搜索岗位

每天早上自动收到岗位更新

(后续还有python数据分析、SQL也是免费的干货课)





官方统计数据


以上的数据来源,大多是企业或行业内数据分析师的首要选择,而对于政府机构内的数据分析师,除了使用Hadoop Hive、Flume和网络爬虫外,还可以从国家、地方等官方统计网站获取。


在国内,像国家统计局、中国资讯行数据库和中国经济信息网等,是中国政府的数据分析师常用来获取权威数据的网站。


如果需要获取全球性的数据,则可以选用FRED、世界银行数据库等权威的经济数据库;若在澳洲,澳大利亚统计局的官方网站,可以提供经济、人口、环境和社会等范畴的数据。


从国家或地方统计局网站获取数据用于分析,可以让数据分析的结果更有说服力和针对性。




往期推荐

01

出道?裸辞?当代95后职场生态图鉴

点击阅读

02

• 跟我进名企 | 投行券商 - 巨头直聘澳洲专场系列

点击阅读

03

• 做数据分析,回国还是留澳?

点击阅读

04

• 疫情中怎么找工作?能跳槽吗?我们请到2位资深HR为你解答

点击阅读



星标关注Seed读职场职场路上不再迷茫



Seed Training Group是澳大利亚教育部注册的职业培训机构(RTO:45225),成立于2014年,总部位于墨尔本,在悉尼、上海、南京设有分部。
Seed Career总部位于墨尔本,是Seed Training Group 旗下的求职业务板块,致力于跨国连接雇主与人才,并提供增值服务。

收藏 已赞