Big Data-Data Mining系列课程
内容包含数据挖掘基础数理知识、数据挖掘平台工具使用、爬虫技术、ETL技术、常用数据挖掘算法、模型评估与优化、Spark MLlib、大数据架构和大数据治理等。该课程不仅配备了丰富的随堂实验,还增加了大量的数据挖掘行业实践,旨在增强学员的动手能力,推动业界大数据行业的专家型人才培养。
Job Outlook
- 周期 6周
- 学时 每周6-8小时
- 课程数量 12门课程
- 语言 中文
Courses in the 华为大学通用方案
数据挖掘介绍
Big Data-Data Mining系列课程。本课程为数据挖掘入门介绍,通过介绍数据挖掘与数据分析的对比介绍什么是数据挖掘,数据挖掘的流程,数据挖掘的开发工具以及数据挖掘的学习路径等内容。学完本章课程后您将能够了解数据挖掘的基本概念与基本流程,帮助您快速学习数据挖掘课程。
大数据预备知识-数学基础
Big Data-Data Mining系列课程。本课程主要介绍数据挖掘中所用到的基本数学知识,包括矩阵与线性代数、概率论与数理统计、信息熵和基尼系数,最后介绍了无约束最优化、约束最优化及应用。学完本课内容后您将能够掌握与数据挖掘相关的数学基础,为后面的数据挖掘算法学习奠定基础。
大数据预备知识-Python基础
Big Data-Data Mining系列课程。本课程主要介绍Python编程基础,主要讲述了Python编程的基础知识以及Python进阶数据采集与数据可视化等内容。学完本课内容后您将能够掌握Python编程基础,为后面的数据挖掘编程打下基础。
数据预处理
Big Data-Data Mining系列课程。本课程主要介绍数据预处理中常用技术所涉及到的方法,包括缺失值处理、异常值处理、特征缩放、数值离散化和不平衡数据处理等,具体内容将从基本概念、使用方法以及应用场景等三个方面详细阐述。缺失值处理在数据挖掘中具有十分重要的作用,它对于数据挖掘算法的好坏起到至关重要的意义,因此学完本课程后您将能够学会针对不同场景数据进行数据预处理。
数据特征选择与降维
Big Data-Data Mining系列课程。本课程主要介绍特征选择和降维技术,作为数据挖掘工程中的重要环节,特征选择和数据降维两种技术都可以提升模型的性能、可用性或模型运行效率,也是深入理解数据、梳理建模思路的重要过程。
机器学习-有监督学习
Big Data-Data Mining系列课程。本课程主要介绍了机器学习中常见的有监督学习算法,包括:线性回归、逻辑回归、KNN、朴素贝叶斯、决策树以及集成算法。学完本课内容后,您将能够有效掌握有监督学习的相关算法及其对应的应用场景。
机器学习-无监督学习
Big Data-Data Mining系列课程。本课程主要介绍无监督学习常见算法:聚类算法和关联规则算法等相关知识内容,聚类算法中重点介绍三种不同划分方法下的代表算法:K-Means算法和Hierarchical Clustering算法等,介绍这些算法的使用场景,主要特性,推导过程等;关联算法中,主要介绍Apriori和FP-Growth的算法原理、算法结构、实践应用等。
数据模型评估与优化
Big Data-Data Mining系列课程。本课程主要讲述在实际数据挖掘的项目中,如何对已选模型进行优化及评估,包括最优化模型、模型评估与选择与正则化等内容。学完本课内容后,您将能够掌握回归、分类、聚类等不同算法的模型评估与优化。
数据挖掘综合应用
Big Data-Data Mining系列课程。本课程的主要目的是将我们学过的数据挖掘相关的知识点联系起来,学完本课内容后,您将能够掌握数据挖掘的一般流程,并能够完成数据挖掘综合应用实验。
Spark MLlib数据挖掘
Big Data-Data Mining系列课程。MLlib是Spark的机器学习(Machine Learning)库,旨在简化机器学习的工程实践工作,并方便扩展到更大规模。Spark MLlib由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优化原语和高层的管道API。
大数据架构和大数据治理
Big Data-Data Mining系列课程。本课程内容主要讲述大数据架构的建设以及如何选择合适的架构平台,并介绍了大数据常见的治理模型与治理案例。学完本课后,您将能够了解常见的大数据架构与大数据治理模型。