目录
●前言
第1章 机器学习入门
本书使用的库
用pip安装库
用conda安装库
第2章 机器学习流程概览
第3章 数据分类工作流:泰坦尼克号数据集
项目布局建议
导入
提出问题
数据术语
获取数据
清洗数据
创建特征
数据采样
数据插值
规范数据
重构
基准模型
不同算法族
模型堆叠
建模
评估模型
优化模型
混淆矩阵
ROC曲线
学习曲线
部署模型
第4章 数据缺失
检查数据缺失情况
删除缺数据的行或列
插值
添加标识列
第5章 清洗数据
处理列名
替换缺失值
第6章 探索数据
数据大小
汇总统计
直方图
散点图
Joint Plot图
Pair Grid图
箱形图和小提琴图
比较两个序数型特征
相关性
RadViz图
平行坐标图
第7章 预处理数据
标准化
调整取值范围
虚拟变量
标签编码
频数编码
从字符串抽取类别型数据
类别型数据的其他编码方法
日期特征的处理方法
添加col_na特征
特征工程
第8章 特征选择
共线列
套索回归
递归特征消除
互信息
主成分分析
特征重要性
第9章 类别不平衡
采用不同度量标准
树模型和集成方法
惩罚模型
对小众类别上采样
生成小众数据
对大众类别下采样
先上采样,再下采样
第10章 分类
对数概率回归
朴素贝叶斯
支持向量机
k近邻
决策树
随机森林
XGBoost
LightGBM
TPOT
第11章 模型选择
验证曲线
学习曲线
第12章 度量标准和分类评估
混淆矩阵
度量标准
准确率
召回率
精准率
f1值
分类报告
ROC曲线
精准率-召回率曲线
累积增益图
lift曲线
类别平衡
类别预测错误
判别阈值
第13章 解释模型
回归系数
特征重要性
LIME包
解释树模型
部分依赖图
替代模型
Shapley值
第14章 回归
基准模型
线性回归
支持向量机
k近邻
决策树
随机森林
XGBoost回归
LightGBM回归
第15章 度量标准和回归模型的评估
度量标准
残差图
异方差性
残差正态性
预测误差图
第16章 解释回归模型
Shapley值
第17章 降维技术
PCA方法
UMAP方法
t-SNE方法
PHATE方法
第18章 聚类
k-means算法
层次聚类
理解簇
第19章 流水线
分类流水线
回归流水线
PCA流水线
作者介绍
封面介绍
内容介绍
本书以详细的授课笔记、表格和示例,帮助你掌握Python机器学习基础知识,学习建模处理结构化数据。你参加相关培训,可将这份宝贵的学习指南作为补充材料,你开始下一个机器学习项目,可将其作为便捷的参考资源。本书适合程序员、数据科学家和AI工程师,它不仅综述机器学习的全过程,还带你了解结构化数据处理的全过程。从本书中,你将学到分类、回归、降维和聚类等多个主题的相关方法。本书涵盖以下主题:用泰坦尼克号数据集讲解分类。清洗数据和处理缺失数据。探索数据分析。数据预处理的常用方法。选择对模型有用的特征。模型选择。度量标准和分类评估。多种回归分析技术。评估回归结果的度量标准。聚类算法。降维技术。scikit-learn流水线。