大数据——时代的弄潮儿

原创 2019年09月24日 澳洲IT圈



文 | 番茄

编辑 | 番茄

时长 | 一曲前奏的时间



前言 


蒙昧时代,信仰神圣。

决断事务,不寻真理,只请鬼神。

帝制年间,天授人权。

行为处事,不论对错,但求君命。

信息社会,数据为王。

预测分析,数字建模,至理遵循。




正文 



时移世易,社会变革,互联网早已走进千家万户,信息社会向智能社会转变也是大势所趋。互联网承载着数据,记录且联系着人与人的工作和生活。如果说真理指的是事务本质的话,俾斯麦的名言也就有了新的注解,“真理只在数据统计之内”。“大数据时代”这个称呼,来的又快且急,但是究竟何为大数据,如管中窥豹,大多数人没法洞悉本质。早年间,关于大数据有个著名的笑话:"Big data is like teenage sex." 正是这种现象最生动的描述。



在这种大背景下,数据科学作为新兴的学科日益发展壮大。所谓数据科学,在实践中可以分为不同的工作形式。有为数据做出解释并使用数据的通用型人才;有了解数据科学的行业领袖构成的行业专家;有提升算法性能并设计新的通用方式的深度专家;有通过数据报告帮助人们做出推论的分析开发人员;有对数据进行可视化和分析的数据工程师。



当前正是数据科学融入特定行业的应用和广泛应用的生产力工具的时代,未来数据科学的从业者也将会称为制造业工程师,营销领导者和医药科学领域的研究人员。


那如何能成为一名合格的数据全栈从业者呢。匠人学院早就给出了答案。




课程详情 



通过介绍数据工程,数据分析和数据科学带领学生理解数据全栈 ,了解数据的行业背景,职业前景和职业发展方向。


完整的一个项目贯穿整个数据全栈课程, 灵活运跟着导师学习和实战,获得case经验和团队协作经验。





适合人群

  • 想从事数据科学方向工作的有一定基础的IT学生

  • 想获得宝贵项目经验并转方向的在职人员

  • 想通过项目积累经验找相关工作的学生

  • IT或CS专业毕业生


收费

  • $4,700(线下早鸟价)$5,200(原价)

  • $3,600(线上)


形式:小班授课(10人开班)线上直播+线下授课

时长80+ hours + career coaching

地点:悉尼(线下),布里斯班(线上),墨尔本(线上)


课程特色

  • Master DBMS,Snowflake data warehouse

  • AWS IAM, S3, EC2, ECS, DynamoDB, RedShift, Elasticache, RDS,VPC, Kinesis,lambda

  • Data engineering pipeline :ETL,spark and ETL tool-Matillion

  • Data Warehouse

  • Data Analytics & Modelling 

  • Data Visualization: Tableau

  • Deliver Value to Business

  • Kaggle projects

  • Data wrangling with Python & R

  • Statistical modelling for data analysis

  • Exploratory data analysis

  • Machine Learning



  • 定制化的Career Coaching

  • 简历改修及面试指导

  • IT匠人社群Networking与内推资


申请职位

  • BI Developer

  • Data Analyst

  • ETL Developer

  • Database Developer

  • Junior Data Engineer

  • Machine Learning engineer

  • Associate Data Scientist


优惠政策

  • 两人同行 各优惠$150

  • 转发本文章立减 $50


课程大纲


课程设置由三部分组成:

整个课程会由数据工程(DE)数据分析( DA)和数据科学(DS)和 career coaching 四部分组成,整个课程会由一个数据项目贯穿,三个部分分别还有一些小项目作为练习和实践。


完整项目简介

通过分析和处理零售行业客户的订单和销售数据,来预测客户下次最可能买入的商品。

此项目非常全面的涵盖了一个数据科学项目最实用的内容:从需求分析做起,一直到数据处理,数据建模,机器建模和可视化。


第一部分 :     Data Engineering (共计40+小时)


DBMS - ER Model

  • Overview of DBMS

  • Components of DBMS

  • Database Architecture

  • Types of Database Model

  • ER Model: Basic Concepts

  • ER Model: Creating ER Diagram

  • ER Model: Generalization and Specialization


项目操作 

学生通过on-line research找到可能存在于company, department,employee以及其他entities之间的联系;基于research结果,亲自设计和实现ER图,基于ER图设计数据库以及各个表的详细内容。

可提高学生自学能力,深入了解ER图,完成ER图到数据库的实现。


SQL介绍

  • SQL Constraints

  • SQL function

  • SQL Join

  • SQL Alias

  • SQL SET operation

  • SQL Sequences

  • SQL Views

  • SQL Analytical Function


项目操作

学生亲自搭建Snowflake数据库环境,根据源数据设计数据库以及各个表的详细内容,载入数据,并且根据需求完成相应的查询。

可以使学生更加深入了解数据库,并且熟练掌握SQL。


Unix/Linux Shell

学习基础的File Management,Directory Management,File Permission, Environment,Pipes and Filters,Processes Management和Network Communication Utilities。

再通过The vi Editor,scripts,Variables,Arrays,Basic Operators,if…else语句,Loop,Loop Control,Substitution,Quoting Mechanisms,Input/Output Redirections,Functions完整理解shell。



AWS和GitHub学习


Data Engineering Pipeline

  • Data extraction/ingestion

  • Data pre-processing

  • Data Transformation

  • Data Loading

  • Data Warehouse

  • Data visualisation

  • Data pipeline and automation


项目操作 1


按照商业要求构建数据仓库,建立dimension和fact表;根据所学ETL知识,设计实现数据处理流程。

此目的是让学生深入了解data pipeline的相关知识。

项目操作2

根据所提供数据集,构建表结构,并且完成简单的数据可视化任务。

目的是让学习回顾数据仓库的知识,并且学习使用数据可视化工具,实现简单的数据分析。



第二部分 :Data Analysis(共计20+小时)

通过学习数据建模,数据可视化,数据报表,数据分析(Modelling, Visualization, Report )和对工具的了解来帮助学员了解我们的目的,会通过Kaggle案例练习实操数据项目。


Data Analytics & Modelling Introduction

该部分会学习案例学习帮助更加系统地理解数据分析和数据建模

What is data analytics?

  • Non modelling analysis

  • Modelling analysis


What is modelling?


  • Problem analysis

  • Get data and data cleaning

  • Feature selection & engineering

  • Build model

  • Test & optimise model performance

  • Output visualisation & reporting



Python introduction

  • Basic functions

  • Loop

  • If statement

  • Function

  • Module import

  • Tuple, list, dictionary

Linear regression

What’s linear regression?

  • Definition

  • Assumptions

  • Maximum Likelihood



Kaggle linear regression example part :

What’s Kaggle?

  • Why Kaggle?

  • How to use Kaggle?



House Prices

  • Data check

  • Feature selection

  • Feature engineering

  • Build model

  • Check model performance

  • Data visualization

  • Model optimisation


What’s logistic regression?

  • Definition

  • Assumptions

  • Maximum Likelihood




Data modeling 

  • Problem analysis

  • Get data and data cleaning

  • Feature selection & engineering

  • Build model

  • Test & optimise model performance

  • Output visualisation & reporting



学习怎样Deliver Value to Business,如何成功有效的交流沟通。

  • Goal

  • Story telling 

  • Data visualisation    

  • Common pitfall    

  • What users are thinking



项目操作

学生在导师的指导下搭建Python的使用平台,并根据分析建模的相关知识,进行相应的数据清理,特征选择, 建立模型,以及模型优化等操作。最后,学生可以参加真实的Kaggle竞赛,通过实际操作巩固所学到的数据分析以及建模知识。




第三部分:Data Science(共计20+小时)

Data wrangling with Python

  • Python basics

  • Regular expressions

  • Process-based parallelism 

  • Interacting with web

  • Big data with Python

  • Project case study

Statistical modelling for data analysis

  • Introduction to modeling for data science

  • Data analysis

  • Regression correlation and clustering

  • Statistical inference and evaluation

  • Project case study(market basket analysis – data consolidation and statistical analysis)



Exploratory data analysis (EDA)

  • Introduction to data exploration and visualization

  • Analysis of tabular and spatial data

  • Analysis of relational and textual data

  • A complete walk through of data exploration process

  • Project case study


Machine Learning

  • Statistical learning and how to assessing model accuracy

  • Linear Model Selection and Regularization

  • Tree-Based Methods

  • Feature engineering

  • Support vector machine

  • Unsupervised learning

  • Gradient boosting model deep dive

  • Time seres modeling

  • Neural networks

  • Gonvolutional networks

  • Project case study


项目操作

通过分析和处理零售行业客户的订单和销售数据,来预测客户下次最可能买入的商品。


此项目非常全面的涵盖了一个数据科学项目最实用的内容:从需求分析做起,一直到数据处理,数据建模,机器建模和可视化。通过这个项目学生基本上可以学习到如何去构建,分析并且处理一个商业中常见到的问题:预测。此项目包含了不止一个数据文件,建模的过程中也涉及到了很多的数据分析和处理,这样也考验了学生如何更好的处理在真实的商业环境中所遇到的问题,学生们在项目中所汲取的经验可以直接被应用到工作中。


第四部分:Career Coaching


  • CV

  • Interview

  • Mock Interview


我们不是在传播焦虑,只是想未雨绸缪

面对时代变化

数据科学的基础知识和实践项目

对于想从事数据行业的小伙伴

匠人学院能帮助你踏上数据科学的旅程。




匠人学院

致力于建立属于澳洲IT华人的

学习&工作交流平台

让所有IT华人

落地找工作不再是难事

你点的在看,我都认真当成了喜欢。
收藏 已赞