🚀 黑马 – 人工智能与数据挖掘全能实战课程 🚀
本课程旨在带您深入理解并掌握人工智能核心技术,通过实操演练,让您从零开始,逐步成长为一名合格的数据挖掘工程师。无论您是初学者还是希望提升技能的从业者,都能在本课程中获得宝贵的知识和实践经验。
🎯 课程亮点:理论与实践深度结合
- 全面覆盖: 从基础概念到高级算法,再到实际应用场景,为您构建完整的人工智能知识体系。
- 项目驱动: 结合丰富的实战案例,让您在解决实际问题的过程中学习和应用技术。
- 技术栈精选: 重点讲解Spark生态系统中的Mllib和GraphX,以及Python主流库(NumPy, Pandas, Matplotlib, Seaborn),帮助您高效处理大数据和进行模型构建。
- 易学易懂: 课程内容由浅入深,结构清晰,辅以大量的代码演示和原理讲解,确保您能轻松理解和掌握。
▶️ 授课方式: 网盘在线学习 (视频课程)
📚 课程内容详情
🌟 阶段二:数据挖掘实战 (Data Mining in Practice)
本阶段将聚焦于如何利用大数据技术和机器学习算法解决实际问题,涵盖特征工程、多种机器学习模型、图计算等关键领域。
- 第一章:Spark Mllib 数据挖掘 + Spark GraphX 🌊
- Spark GraphX:图计算与社交网络分析
- 图计算基础理论与实践
- 图的基本概念、应用及Spark GraphX的介绍与架构 🌌
- 图的存储方式、基本数据结构与类型 📖
- 如何构建图:方法原理、源码解析及代码实战 🛠️
- 图的操作API:顶点操作、图的转换(mapVertices, mapEdges)、关联操作、聚合操作等 ⚙️
- 图的结构操作:subgraph, mask, groupGraph 等 🔄
- 获取图的基本信息:顶点、边、入度和出度 📊
- 社交网络数据创建与图查询操作 🧑🤝🧑
- PageRank算法:网页排名与重要节点发现
- PageRank算法的基本假设、理解与深入讲解 📄
- 通过Wiki数据和社交网络数据实践PageRank,发现重要节点 🔍
- PageRank在实际应用中的案例演示 🚀
- 图遍历与最短路径算法
- 广度优先遍历(BFS)在图中的应用 🧭
- 实现图的最短路径查找 📍
- 连通图和强连通图的概念与识别 🔗
- Spark GraphX 与 Spark Mllib 综合实战
- 三角关系网络发现实战 🔺
- SVD++原理讲解与实战:实现推荐算法预测 ❤️
- 图计算基础理论与实践
- Spark Mllib:机器学习模型构建与应用
- 机器学习理论基础与流程
- 人工智能、机器学习与大数据关系的梳理 🧠
- 机器学习的定义、问题分类与工作流程 📈
- 数据集的概述、获取与属性介绍 🗂️
- 机器学习模型的选择、构建流程与评估方法 🏆
- 交叉验证、经验风险与结构风险的理解 🎯
- 特征工程:数据预处理与特征提取/选择
- 特征工程的核心概念与重要性 🏗️
- 数据预处理:缺失值处理、异常值处理、数据类型转换 🧹
- 数值型数据处理方法与分箱(Bucketizer) 🗄️
- 类别型数据处理:One-Hot编码、VectorIndexer 🏷️
- 特征转换:PCA降维、VectorAssemble(特征组合)、VectorSlicer(特征选择) 💡
- 特征提取:CountVector、Word2Vec、TF-IDF 实战 ✍️
- 特征选择方法:RFormula、卡方验证等 🧮
- 案例实践:Iris数据集的完整特征工程流程分析 🌸
- 线性回归:预测模型构建
- 线性回归的概念、原理及数学推导(最小二乘法) 📐
- 简单线性回归与多元线性回归 📊
- 回归中的损失函数与优化方法(正规方程、梯度下降法) 📉
- 正则化线性模型(Ridge Regression)与模型选择 ⚖️
- 欠拟合与过拟合的理解及处理方法 🚧
- Pipeline:构建模型流水线,自动化流程 ⚙️
- 案例实战:房价预测、运输时间预测等 🏠
- 决策树算法:分类与回归
- 决策树的基本概念、构建规则与ID3、C4.5算法 🌳
- 信息熵、信息增益与信息增益率的计算 📊
- 基尼系数与CART分类树原理 💡
- 回归树原理与CART回归树 📈
- 决策树的剪枝策略与防止过拟合 ✂️
- 案例实战:相亲数据建模、Iris鸢尾花分类等 🌸
- 聚类算法:无监督学习
- 聚类的核心思想、度量距离与评估方法 🎯
- K-Means算法原理、特点及案例实战 🚀
- 其他聚类方法:K-Medoids、DBSCAN、层次聚类 🌐
- 高斯混合模型(GMM)原理与应用 💡
- 案例实战:经纬度数据聚类、药品数据聚类等 💊
- 其他高级模型与应用
- 朴素贝叶斯算法:原理、计算案例与案例实现 📜
- K近邻算法(KNN):原理、距离度量、K值选择与案例实战 🚶
- 逻辑回归:原理、评估指标(ROC曲线)与案例实战 📈
- SVM算法:原理、核方法、损失函数与案例实战 ⚙️
- 集成学习:Bagging、Boosting、随机森林、GBDT、XGBoost、LightGBM 🤖
- 案例实战:Otto分类、PUBG比赛数据预测等 🏆
- EM算法:原理与实例分析 💡
- 机器学习理论基础与流程
- Spark GraphX:图计算与社交网络分析
🌟 阶段一:人工智能基础 (Foundations of Artificial Intelligence)
本阶段为您打下坚实的人工智能和数据科学基础,涵盖环境搭建、数据处理库、可视化工具及基础机器学习算法。
- 第一章:机器学习概述 (Machine Learning Overview)
- 人工智能的定义、发展历程与主要分支 🧠
- 机器学习与AI、大数据的区别与联系 🔗
- 机器学习的定义、问题分类与工作流程 📈
- 数据集的概述、获取与属性介绍 🗂️
- 机器学习算法分类介绍 📊
- 模型评估与选择:常见评估指标、欠拟合与过拟合 🎯
- 深度学习简介 🌌
- 第二章:环境安装和使用 (Environment Setup and Usage)
- 基础环境搭建:Python、IDE等 🛠️
- Jupyter Notebook 的基本使用与操作 💻
- Matplotlib 的基础绘图功能 📊
- 第三章:Matplotlib 可视化 (Data Visualization with Matplotlib)
- 绘制单变量和双变量分布图形 📈
- 在同一坐标系和不同坐标系下绘制多个图像 🖼️
- 常见统计图的绘制与辅助功能完善 🎨
- 第四章:NumPy 数据处理 (Numerical Computing with NumPy)
- NumPy 介绍与 ndarray 数组对象 🔢
- 创建各种数组:全零、全一、随机数组、固定范围数组 🧮
- ndarray 的运算:元素级运算、数组间运算 ➕➖✖️➗
- 数组的基本操作:索引、切片、重塑、合并等 🔄
- 矩阵运算与复习 📐
- 第五章:Pandas 数据分析 (Data Analysis with Pandas)
- Pandas 介绍与核心数据结构:Series、DataFrame、MultiIndex 📊
- 文件的读取与写入(CSV, Excel 等) 📁
- 数据处理:缺失值处理、重复值处理、数据离散化 🧹
- 数据表的合并、连接与分组聚合 🔗
- 交叉表与透视表的使用 📈
- 统计函数、累计统计函数与自定义函数应用 ➕
- 案例分析:电影数据分析、星巴克数据分析等 🎬
- 第七章:K 近邻算法 (K-Nearest Neighbors Algorithm)
- K近邻算法简介、API初步使用与K值选择 🚶
- 机器学习中的距离度量方法介绍 📐
- KD树:构造过程与案例实现 🌳
- 特征工程:特征预处理(归一化、标准化)与数据可视化 🎨
- 数据集划分:留出法、交叉验证、自助法 🗂️
- 模型调优:交叉验证与网格搜索 🎯
- 案例实战:Facebook位置预测 📍
- 第八章:线性回归 (Linear Regression)
- 线性回归简介、API初步使用与数学基础(求导) 📐
- 线性回归中的损失函数与优化(正规方程、梯度下降法) 📉
- 欠拟合与过拟合问题及解决策略 🚧
- 正则化:Ridge Regression ⚖️
- 模型保存与加载 💾
- 案例实战:波士顿房价预测 🏠
- 第九章:逻辑回归 (Logistic Regression)
- 逻辑回归简介、API介绍与肿瘤预测案例 🩺
- 分类模型评估方法:混淆矩阵、精确率、召回率、F1分数等 📊
- ROC曲线绘制与AUC值 📈
- 类别不平衡数据处理:过采样、欠采样 ⚖️
- 第十章:决策树 (Decision Trees)
- 决策树算法简介、信息熵、信息增益与信息增益率 🌳
- 基尼指数与CART算法原理 💡
- 回归决策树与分类决策树 📈
- 特征提取:字典特征、英文/中文文本特征(TF-IDF) ✍️
- 决策树剪枝策略 ✂️
- 案例实战:泰坦尼克号乘客生存预测 🚢
- 第十一章:集成学习 (Ensemble Learning)
- 集成学习基本介绍:Bagging、Boosting 🤖
- 随机森林与GBDT算法原理 🌳
- XGBoost算法:原理、目标函数、参数介绍与案例实战 🚀
- LightGBM算法:原理、参数介绍与案例实战 ⚡
- 案例实战:Otto分类、PUBG游戏数据分析 🏆
- 第十二章:聚类算法 (Clustering Algorithms)
- 聚类算法介绍、API初步实现与聚类流程 🎯
- 特征降维(PCA)介绍 💡
- 模型评估方法 📊
- 案例实战:用户喜好细分 👥
- 第十三章:朴素贝叶斯 (Naive Bayes)
- 朴素贝叶斯简介、概率基础复习与计算案例 📜
- 案例实战:文本分类 📝
- 第十四章:SVM算法 (Support Vector Machine)
- SVM基本介绍、API使用与目标函数推导 ⚙️
- 核方法与损失函数 💡
- SVM回归介绍 📈
- 案例实战:手写数字识别器 ✍️
- 第十六章:HMM算法 (Hidden Markov Model)
- 马尔科夫链介绍 🔗
- HMM模型基础、三种经典问题(评估、解码、学习)及其求解算法(前向后向、维特比、鲍姆-韦尔奇) 💡
- 案例实战:语音识别、自然语言处理 🗣️
- 第十七章:集成学习进阶 (Advanced Ensemble Learning)
- XGBoost、LightGBM算法原理、参数调优与案例实战 🚀
- 案例实战:PUBG比赛数据分析(异常值处理、特征工程、模型训练与调优) 🏆
- 第十八章:Spark Mllib 特征工程 (Spark Mllib Feature Engineering)
- 特征工程基础概念与数据类型转换 🏗️
- 数值型数据处理:分箱、归一化、标准化 📊
- 类别型数据处理:One-Hot编码、VectorIndexer 🏷️
- 特征转换:PCA、VectorAssemble、VectorSlicer 💡
- 特征选择:RFormula、卡方验证、相关系数 🧮
- 案例实践:Iris数据集的完整特征工程流程分析 🌸
暂无评论内容