内容介绍
本书从数据科学的“科学”性出发,着重介绍数据科学项目的规范化流程以及各步骤所涉及的数据科学基本概念与原理。全书共包含六大部分:问题与目标、数据获取、Python基础、探索性数据分析、建模与性能评估、结果展示。本书可作为大专院校数据科学相关专业的导论性教材或参考书,也适合所有对数据科学感兴趣的学生和社会读者自学。本书配套的慕课“探索数据的奥秘”已在中国大学MOOC网上线。
数据科学导论 探索数据的奥秘 第2版
目录
●第1章绪论
1.1为什么要研究数据科学
1.2基本概念
1.2.1数据
1.2.2大数据
1.2.3数据科学
1.3数据科学项目涉及的人员及其任务
1.4数据科学项目流程
1.4.1确定问题
1.4.2制定目标
1.4.3搜集数据
1.4.4探索性数据分析
1.4.5建立模型
1.4.6性能评价
1.4.7结果展示
1.4.8部署模型
1.5数据科学项目中的数据流
1.6本书内容、采用工具和目标人群
思考题
第2章问题与目标
2.1用户层面的问题与目标
2.2数据科学层面的问题与目标
思考题
第3章数据获取
3.1前提假设与数据方案设计
3.1.1前提假设
3.1.2数据方案设计
3.1.3数据获取的可行性分析
3.1.4确定数据构成
3.2总体和抽样
3.2.1总体和个体
3.2.2样本
3.2.3无偏抽样
3.2.4抽样偏差
3.3混杂因素及其避免方法
3.3.1混杂因素和辛普森悖论
3.3.2随机控制实验
3.3.3自然实验
思考题
第4章Python基础
4.1Python的下载与安装
4.2常用工具包的下载与安装
4.3Jupyter Notebook
4.4Python常用数据结构
4.4.1列表
4.4.2元组
4.4.3字典
4.4.4集合
4.4.5numpy.ndarray
4.4.6Pandas.DataFrame
4.5Python基本语法
4.5.1基本命令
4.5.2控制流和相关语法
4.6Python数据导入
4.6.1本地数据导入
4.6.2在线数据导入
4.6.3数据的连续流加载
第5章探索性数据分析
5.1数据检查
5.1.1数据的意义及规模
5.1.2特征的数据类型及意义
5.1.3初步排除数据泄露
5.2数据预处理
5.2.1缺失处理
5.2.2异常处理
5.2.3冗余处理
5.3描述性统计
5.3.1位置性测度
5.3.2离散性测度
5.3.3图形化描述统计
思考题
第6章建模与性能评价
6.1统计建模
6.1.1常见的概率密度函数
6.1.2参数估计
6.1.3假设检验
6.1.4p-hacking
6.1.5统计模型的应用场景
6.2回归模型
6.2.1线性回归模型
6.2.2线性回归模型性能评价
6.2.3线性回归与线性相关
6.2.4多元线性回归
6.2.5线性回归模型的适用场合
6.2.6Logistic回归
6.2.7训练集-测试集划分
6.2.8应用非数值特征作为输入时的one-hot编码
6.2.9逻辑回归模型的适用场合
6.3朴素贝叶斯模型
6.3.1贝叶斯定理
6.3.2高斯模型
6.3.3多项式模型
6.3.4伯努利模型
……
内容介绍
本书从数据科学的“科学”性出发,着重介绍数据科学项目的规范化流程以及各步骤所涉及的数据科学基本概念与原理。全书共包含六大部分:问题与目标、数据获取、Python基础、探索性数据分析、建模与性能评估、结果展示。本书可作为大专院校数据科学相关专业的导论性教材或参考书,也适合所有对数据科学感兴趣的学生和社会读者自学。本书配套的慕课“探索数据的奥秘”已在中国大学MOOC网上线。
微信支付
支付宝
扫一扫购买