在未来，留学生如何成为一名大数据工程师，你需要会什么技能？,澳洲IT圈微信公众号文章

澳洲留学生都在关注的圈子

文| 在家的naomi

编辑| 发霉的naomi

前言

不知道留在澳洲的同学

是不是和小编一样

天天呆在家里上网课

哪儿都不能去

（好闷哦 >o< ）

不过转念一想

这个时候

也是和同学拉开差距的绝好机会

数据全栈班 - 大数据工程师成长之路

“很多人还没搞清楚什么是PC互联网，移动互联网来了，我们还没搞清楚移动互联的时候，大数据时代又来了。”——马云卸任演讲

数据全栈班所教内容

具体教学内容后文有讲

1. 大数据是什么？数据工程师又是什么

大数据是眼下非常时髦的技术名词，与此同时自然也催生出了一些与大数据处理相关的职业，通过对数据的挖掘分析来影响企业的商业决策。

这群人在国外被叫做数据科学家（Data Scientist），这个头衔最早由D.J.Pati和Jeff Hammerbacher于2008年提出，他们后来分别成为了领英（LinkedIn）和Facebook数据科学团队的负责人。而数据科学家这个职位目前也已经在美国传统的电信、零售、金融、制造、物流、医疗、教育等行业里开始创造价值。

数据工程中最受欢迎的技能之一是设计和构建数据仓库的能力。数据仓库是收集、存储和检索所有原始数据的地方，如果没有数据仓库，一个数据科学家做的所有任务就会变得要么太昂贵，要么太大，以至于无法拓展。

ETL（提取、转换和载入）是数据工程师构建数据管道所遵循的步骤，它实际上是一份关于如何处理、转换收集来的原始数据以备分析的蓝图。

数据工程师通常有着工程背景，与数据科学家不同的是，这个角色不需要太多的学术和科学知识。因此，对构建大规模结构和体系结构的开发人员或工程师非常适合这个角色。

数据体量巨大(Volume)。截至目前，人类生产的所有印刷材料的数据量是200PB，而历史上全人类说过的所有的话的数据量大约是5EB(1EB=210PB)。

数据类型繁多(Variety)。相对于以往便于存储的以文本为主的结构化数据，非结构化数据越来越多，包括网络日志、音频、视频、图片、地理位置信息等，这些多类型的数据对数据的处理能力提出了更高要求。

价值密度低(Value)。价值密度的高低与数据总量的大小成反比。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。

处理速度快(Velocity)。大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告，预计到2020年，全球数据使用量将达到35.2ZB。

课程内容

为了迎合澳洲企业对数据工程师，或者大数据工程师的岗位需求

课程难度：中级

授课方式：线下课堂+线上直播+Recording

课程时间：84小时，每周6小时，12周学习

课程价格：原价$5,500, 线上早鸟价：$4200 线下早鸟价：$4700

数据工程实习价格：8.5折优惠

面向人群：

想要从事大数据方向的IT/CS 毕业生和在校生
数据科学在校生和毕业生
IS专业毕业生

课程特色：

结合AWS云技术，吃透数据分析、数据工程、数据科学
3个个人项目以及1个团队项目，简历里增添经验，最后小组间battle
灵活运跟着导师学习和实战，获得case经验和团队协作经验
所有全栈课程同时配有模拟面试，简历修改和面试指导等服务。
同时获得匠人学院提供的reference letter

职业目标：

Data Engineer
Big Data Engineer
BI Developer
Data Analyst
ETL Developer
Database Developer
Junior Data Engineer
Associate Data Scientist

网站地址：https://jiangren.com.au/program-course/data-engineer-data-analyst

数据全栈班会面向企业数据工程师培训涉及下面的技术内容：

没错，数据全栈班最大的特色，也是其他培训班没有的，会更多关注于Data Engineering on Cloud能力。很多大型金融公司，银行从2019年开始，就有计划把数据处理公司部署到云端进行，所以转到 data cloud云端是一个巨大的趋势，那企业是选择 AWS（Amazon Web Service）还是选择GCP（Google Cloud Platform），Azure，也是对于企业来讲是一个重大的抉择。数据全栈班，鉴于AWS的市场占有率，选择AWS的云服务来帮助学生入门是最佳选择，掌握了AWS，GCP就容易很多。

目前各大银行云端技术使用：

Webpack使用Azure
ANZ使用GCP，少部分使用AWS
Commonwealth Bank，使用AWS

简历增添4个项目经验

本课程包含4个项目，包括3个individual项目，1个Group项目，最后Group项目会通过小组间Battle，Presentation。

所以学完课程后，你的简历里会新增四个Project 经验，以及如果报数据工程师实习的话，（悉尼本地俩家实习host company），你就获得了本地工作经验。

我们推出了数据全栈班：完美解决数据工程师求职，同时又兼顾了解数据科学和数据分析的全行业流程，从更高维度了解数据行业的流程。

2.数据科学家和数据工程师之间的区别

了解这两种角色之间的区别非常重要。从广义上讲，数据科学家综合使用统计学、数学、机器学习和行业知识来构建模型。他/她必须使用组织支持的相同工具/语言和框架来编码和构建这些模型。而数据工程师必须构建并维护适用于数据收集、处理和部署数据密集型应用的数据结构和体系架构。构建数据收集和存储管道，将数据汇总给数据科学家，从而将模型投入生产-这些只是数据工程师必须执行的任务中的一部分。

要使任何大规模数据科学项目取得成功，数据科学家和数据工程师需要携手合作，否则事情很快就会出错。

3. 与数据工程相关的不同角色

数据架构师：数据架构师为数据管理系统收集、整合和维护所有的数据源奠定基础，这个角色需要了解SQL、XML、Hive、Pig、Spark等工具。
数据库管理员：顾名思义，担任此角色的人需要对数据库有着广泛的了解。职责包括确保数据库对所有需要的用户可用，适当地维护数据库，并且保证在添加新特性时没有任何中断。
数据工程师：精通以上众多技巧的人。正如我们所见，数据工程师需要掌握数据库工具、Python和Java语言、分布式系统（如Hadoop）等知识，这个角色负责多种组合任务。

4. 学习数据的未来前景

第一：大数据自身能够创造出更多的价值。大数据相关技术紧紧围绕数据价值化展开，数据价值化将开辟出广大的市场空间，重点在于数据本身将为整个信息化社会赋能。随着大数据的落地应用，大数据的价值将逐渐得到体现。目前在互联网领域，大数据技术已经得到了较为广泛的应用。

第二：大数据推动科技领域的发展。大数据的发展正在推动科技领域的发展进程，大数据的影响不仅仅体现在互联网领域，也体现在金融、教育、医疗等诸多领域。在人工智能研发领域，大数据也起到了重要的作用，尤其在机器学习、计算机视觉和自然语言处理等方面，大数据正在成为智能化社会的基础。

第三：大数据产业链逐渐形成。经过近些年的发展，大数据已经初步形成了一个较为完整的产业链，包括数据采集、整理、传输、存储、分析、呈现和应用，众多企业开始参与到大数据产业链中，并形成了一定的产业规模，相信随着大数据的不断发展，相关产业规模会进一步扩大。

第四：产业互联网将推动大数据落地。当前互联网正在经历从消费互联网向产业互联网过渡，产业互联网将利用大数据、物联网、人工智能等技术来赋能广大的传统产业，可以说产业互联网的发展空间非常大，而大数据则是产业互联网发展的一个重点，大数据能否落地到传统行业，关乎产业互联网的发展进程，所以在产业互联网阶段，大数据将逐渐落地，也必然落地。

通过以上分析可以得出，未来大数据领域的发展空间还是比较大的，而且目前大数据领域的人才缺口比较大。

5.在澳洲，学习大数据真的有用吗？

首先，可以去seek上搜索一下data engineer的岗位数量，澳洲的话，也算是一个需求不低的岗位

再看一下一份普通的Mid Level的数据工程师的薪水，达到了120k到170k，是不是有点澳洲梦的小感动呢。

无论是澳洲的大学，还是中国的大学，关于数据工程相关的技能有教吗？

答案是：

不教

应该是许多公司使用的专业技能并不教授。这就造成了，一份需求量不小的工作，没有大学教，导致了公司招工难，学生找工难。岗位薪水也水涨船高。

下面是一份工作job description，虽然很长，也能够从字里行间看出，这份工作的工作流程和重点是什么，企业需要什么样的人才。

对于大学生来说，学习大数据技术一方面会提升自身的数据力，另一方面也会增强自身的就业竞争力。当前正处在产业结构升级的历史时期，此时掌握新技术的年轻人会有更多的发展机会，其中大数据、人工智能、物联网等技术就受到了广泛的关注。按照历史经验来看，技术革新往往会带来行业的巨变，而这个过程会给年轻人带来更多的发展机会，当前大学生选择学习大数据技术就是一个不错的选择。

当前对于职场人来说，学习大数据技术将带来三个方面比较积极的意义，其一是会带来更强的资源整合能力；其二是会提升自身的工作效率；其三是会扩展自身的工作边界，从而促进岗位升级。另外，在大数据快速发展的初期，积极拥抱大数据会有更多的机会来抓住大数据发展初期的各种红利。

从大数据整体的产业生态体系来看，大数据领域的岗位类型还是比较多的，而且不同的岗位往往也需要组织不同的知识结构，这就使得更多人都有机会进入到大数据领域发展。所以，并不是只有学习大数据专业，或者是计算机专业才有机会进入到大数据领域，更多专业的毕业生通过学习大数据，都有机会进入大数据领域发展。

扫码添加客服小姐姐

参加哦～

课程大纲

具体课程大纲联系客服获取

课程设置由三部分组成：

整个课程会由数据工程（DE）数据分析（ DA）和数据科学（DS）和 career coaching 四部分组成，整个课程会由一个数据项目贯穿，三个部分分别还有一些小项目作为练习和实践。

完整项目简介

通过分析和处理零售行业客户的订单和销售数据，来预测客户下次最可能买入的商品。

此项目非常全面的涵盖了一个数据科学项目最实用的内容：从需求分析做起，一直到数据处理，数据建模，机器建模和可视化。

第一部分：Data Engineering (共计40+小时）

DBMS - ER Model

Overview of DBMS
Components of DBMS
Database Architecture
Types of Database Model
ER Model: Basic Concepts
ER Model: Creating ER Diagram
ER Model: Generalization and Specialization

项目操作

学生通过on-line research找到可能存在于company, department,employee以及其他entities之间的联系；基于research结果，亲自设计和实现ER图，基于ER图设计数据库以及各个表的详细内容。

可提高学生自学能力，深入了解ER图，完成ER图到数据库的实现。

SQL介绍

SQL Constraints
SQL function
SQL Join
SQL Alias
SQL SET operation
SQL Sequences
SQL Views
SQL Analytical Function

项目操作

学生亲自搭建Snowflake数据库环境，根据源数据设计数据库以及各个表的详细内容，载入数据，并且根据需求完成相应的查询。

可以使学生更加深入了解数据库，并且熟练掌握SQL。

Unix/Linux Shell

学习基础的File Management，Directory Management，File Permission， Environment，Pipes and Filters，Processes Management和Network Communication Utilities。

再通过The vi Editor，scripts，Variables，Arrays，Basic Operators，if…else语句，Loop，Loop Control，Substitution，Quoting Mechanisms，Input/Output Redirections，Functions完整理解shell。

AWS和GitHub学习

Data Engineering Pipeline

Data extraction/ingestion
Data pre-processing
Data Transformation
Data Loading
Data Warehouse
Data visualisation
Data pipeline and automation

项目操作 1

按照商业要求构建数据仓库，建立dimension和fact表；根据所学ETL知识，设计实现数据处理流程。

此目的是让学生深入了解data pipeline的相关知识。

项目操作2

根据所提供数据集，构建表结构，并且完成简单的数据可视化任务。

目的是让学习回顾数据仓库的知识，并且学习使用数据可视化工具，实现简单的数据分析。

第二部分：Data Analysis(共计20+小时）

通过学习数据建模，数据可视化，数据报表，数据分析（Modelling， Visualization, Report ）和对工具的了解来帮助学员了解我们的目的，会通过Kaggle案例练习实操数据项目。

Data Analytics & Modelling Introduction

该部分会学习案例学习帮助更加系统地理解数据分析和数据建模

What is data analytics?

Non modelling analysis
Modelling analysis
What is modelling?
Problem analysis
Get data and data cleaning
Feature selection & engineering
Build model
Test & optimise model performance
Output visualisation & reporting

Python introduction

Basic functions
Loop
If statement
Function
Module import
Tuple, list, dictionary

Linear regression

What’s linear regression?

Definition
Assumptions
Maximum Likelihood

Kaggle linear regression example part :

What’s Kaggle?

Why Kaggle?
How to use Kaggle?

House Prices

Data check
Feature selection
Feature engineering
Build model
Check model performance
Data visualization
Model optimisation

What’s logistic regression?

Definition
Assumptions
Maximum Likelihood

Data modeling

Problem analysis
Get data and data cleaning
Feature selection & engineering
Build model
Test & optimise model performance
Output visualisation & reporting

学习怎样Deliver Value to Business，如何成功有效的交流沟通。

Goal
Story telling
Data visualisation
Common pitfall
What users are thinking

项目操作

学生在导师的指导下搭建Python的使用平台，并根据分析建模的相关知识，进行相应的数据清理，特征选择，建立模型，以及模型优化等操作。最后，学生可以参加真实的Kaggle竞赛，通过实际操作巩固所学到的数据分析以及建模知识。

第三部分：Data Science(共计20+小时）

Data wrangling with Python

Python basics
Regular expressions
Process-based parallelism
Interacting with web
Big data with Python
Project case study

Statistical modelling for data analysis

Introduction to modeling for data science
Data analysis
Regression correlation and clustering
Statistical inference and evaluation
Project case study(market basket analysis – data consolidation and statistical analysis)

Exploratory data analysis (EDA)

Introduction to data exploration and visualization
Analysis of tabular and spatial data
Analysis of relational and textual data
A complete walk through of data exploration process
Project case study

Machine Learning

Statistical learning and how to assessing model accuracy
Linear Model Selection and Regularization
Tree-Based Methods
Feature engineering
Support vector machine
Unsupervised learning
Gradient boosting model deep dive
Time seres modeling
Neural networks
Gonvolutional networks
Project case study

项目操作

通过分析和处理零售行业客户的订单和销售数据，来预测客户下次最可能买入的商品。

此项目非常全面的涵盖了一个数据科学项目最实用的内容：从需求分析做起，一直到数据处理，数据建模，机器建模和可视化。通过这个项目学生基本上可以学习到如何去构建，分析并且处理一个商业中常见到的问题：预测。此项目包含了不止一个数据文件，建模的过程中也涉及到了很多的数据分析和处理，这样也考验了学生如何更好的处理在真实的商业环境中所遇到的问题，学生们在项目中所汲取的经验可以直接被应用到工作中。

第四部分：Career Coaching