作为当下最热门的职业之一——数据分析师,他们的工作几乎离不开各种各样的数据,而根据相关报告,数据分析师有51%的职责,用来收集数据。
但从哪里收集数据呢?接下来 Seed小助手将会和大家一起解答这个问题。
数据共享和日志收集
尽管数据分析师在最近几年才火起来,但其工作核心——数据,却是一直存在,且随着数据的不断增加和完善,过往的数据会被数据人员完整地收录到共享的数据平台或数据接口,数据分析师可以直接从这些数据平台或数据接口中调用数据。
根据清华大学软件学院发布的《2020年顶级数据团队建设全景报告》显示,目前国内数据团队从业者常用的大数据平台/接口排列前三的是Hadoop Hive、Spark SQL和Cloudera CDH,使用率分别是19.3%、13.4%和4.1%。
而在一些著名的国际企业里,像IBM、Intel和Facebook,他们的数据分析师也都在使用Hadoop这个大数据平台。
以上的数据平台或数据接口,是基于全球各行业的数据共享。若国内的数据分析师想要收集企业内部的原有数据,他们大多会选用Flume、Scribe等开源日志收集系统。这些日志收集系统,会收集企业内部的业务日志数据,为企业员工提供离线或在线使用。
而在国外、包括澳洲的大多数企业,他们会选用SolarWinds、KiwiSyslog和SolarWinds等本地的日志管理工具。
互联网爬虫
对于数据分析师而言,“计划赶不上变化”是常有的事,新出现的数据常常会来不及收录到数据平台或数据库里;而他们在进行分析时,却往往需要结合最新的数据,从而得出相关的结论;因此,数据分析师除了可以调用原有的数据,还可以直接从网络上采集最新的数据。
根据思科在2016年的估计,互联网的流量已经超过十亿亿字节,因此,互联网数据已经成为了全球数据分析师的重要数据来源。
在网络上采集数据,程序员们也称为网络爬虫;而对于数据分析师而言,常用的网络爬虫软件是Python。因此在《2020年顶级数据团队建设全景报告》中,Python成为了国内数据团队从业者最常用的数据分析软件;同时也是最影响澳洲数据分析师薪资的技能之一,影响率达到了4%。
9月5日晚8点
(悉尼墨尔本时间)
Seed Career数据分析公开课
第二讲Python爬虫讲座与你相约
老师带你一起爬seek上的岗位
从此告别手动搜索岗位
每天早上自动收到岗位更新
(后续还有python数据分析、SQL也是免费的干货课)
官方统计数据
以上的数据来源,大多是企业或行业内数据分析师的首要选择,而对于政府机构内的数据分析师,除了使用Hadoop Hive、Flume和网络爬虫外,还可以从国家、地方等官方统计网站获取。
在国内,像国家统计局、中国资讯行数据库和中国经济信息网等,是中国政府的数据分析师常用来获取权威数据的网站。
如果需要获取全球性的数据,则可以选用FRED、世界银行数据库等权威的经济数据库;若在澳洲,澳大利亚统计局的官方网站,可以提供经济、人口、环境和社会等范畴的数据。
从国家或地方统计局网站获取数据用于分析,可以让数据分析的结果更有说服力和针对性。
往期推荐
| |||
| |||
| |||
|