年薪10K+的数据分析师如何收集数据？,Seed读职场微信公众号文章

作为当下最热门的职业之一——数据分析师，他们的工作几乎离不开各种各样的数据，而根据相关报告，数据分析师有51%的职责，用来收集数据。

但从哪里收集数据呢？接下来 Seed小助手将会和大家一起解答这个问题。

数据共享和日志收集

尽管数据分析师在最近几年才火起来，但其工作核心——数据，却是一直存在，且随着数据的不断增加和完善，过往的数据会被数据人员完整地收录到共享的数据平台或数据接口，数据分析师可以直接从这些数据平台或数据接口中调用数据。

根据清华大学软件学院发布的《2020年顶级数据团队建设全景报告》显示，目前国内数据团队从业者常用的大数据平台/接口排列前三的是Hadoop Hive、Spark SQL和Cloudera CDH，使用率分别是19.3%、13.4%和4.1%。

而在一些著名的国际企业里，像IBM、Intel和Facebook，他们的数据分析师也都在使用Hadoop这个大数据平台。

以上的数据平台或数据接口，是基于全球各行业的数据共享。若国内的数据分析师想要收集企业内部的原有数据，他们大多会选用Flume、Scribe等开源日志收集系统。这些日志收集系统，会收集企业内部的业务日志数据，为企业员工提供离线或在线使用。

而在国外、包括澳洲的大多数企业，他们会选用SolarWinds、KiwiSyslog和SolarWinds等本地的日志管理工具。

互联网爬虫

对于数据分析师而言，“计划赶不上变化”是常有的事，新出现的数据常常会来不及收录到数据平台或数据库里；而他们在进行分析时，却往往需要结合最新的数据，从而得出相关的结论；因此，数据分析师除了可以调用原有的数据，还可以直接从网络上采集最新的数据。

根据思科在2016年的估计，互联网的流量已经超过十亿亿字节，因此，互联网数据已经成为了全球数据分析师的重要数据来源。

在网络上采集数据，程序员们也称为网络爬虫；而对于数据分析师而言，常用的网络爬虫软件是Python。因此在《2020年顶级数据团队建设全景报告》中，Python成为了国内数据团队从业者最常用的数据分析软件；同时也是最影响澳洲数据分析师薪资的技能之一，影响率达到了4%。

9月5日晚8点

（悉尼墨尔本时间）

Seed Career数据分析公开课

第二讲Python爬虫讲座与你相约

老师带你一起爬seek上的岗位

从此告别手动搜索岗位

每天早上自动收到岗位更新

（后续还有python数据分析、SQL也是免费的干货课）

官方统计数据

以上的数据来源，大多是企业或行业内数据分析师的首要选择，而对于政府机构内的数据分析师，除了使用Hadoop Hive、Flume和网络爬虫外，还可以从国家、地方等官方统计网站获取。

在国内，像国家统计局、中国资讯行数据库和中国经济信息网等，是中国政府的数据分析师常用来获取权威数据的网站。

如果需要获取全球性的数据，则可以选用FRED、世界银行数据库等权威的经济数据库；若在澳洲，澳大利亚统计局的官方网站，可以提供经济、人口、环境和社会等范畴的数据。

从国家或地方统计局网站获取数据用于分析，可以让数据分析的结果更有说服力和针对性。

往期推荐

01	• 出道？裸辞？当代95后职场生态图鉴
	► 点击阅读

02	• 跟我进名企 \| 投行券商 - 巨头直聘澳洲专场系列
	► 点击阅读

03	• 做数据分析，回国还是留澳？
	► 点击阅读

04	• 疫情中怎么找工作？能跳槽吗？我们请到2位资深HR为你解答
	► 点击阅读

星标关注Seed读职场，职场路上不再迷茫

Seed Training Group是澳大利亚教育部注册的职业培训机构（RTO:45225），成立于2014年，总部位于墨尔本，在悉尼、上海、南京设有分部。

Seed Career总部位于墨尔本，是Seed Training Group 旗下的求职业务板块，致力于跨国连接雇主与人才，并提供增值服务。

收藏赞推广

作者介绍

Seed读职场

微信号：SeedTraining

分享有关求职与个人发展的相关信息，将有助于求职的职业培训项目介绍给大家，帮助留澳华人毕业生更顺利地迈入职场。

您的【关注和订阅】是作者不断前行的动力

年薪10K+的数据分析师如何收集数据？

(优惠)个人退税，公司报税

澳洲房价网

澳微帮-房产(小程序)

猫本留学公众号

Seed读职场

年薪10K+的数据分析师如何收集数据？

(优惠)个人退税， 公司报税

澳洲房价网

澳微帮-房产(小程序)

猫本留学公众号

Seed读职场

(优惠)个人退税，公司报税