目录
●目录
第1篇 原理篇
第1章 进阶数据分析思维
1.1 数字化时代的三种重要思维 1
1.1.1 设计思维 .2
1.1.2 敏捷思维 .4
1.1.3 数据思维 .7
1.2 数据思维在现代企业管理中的作用 8
1.2.1 探查阶段的数据分析 .9
1.2.2 定义阶段的数据分析 .10
1.2.3 设计阶段的数据分析 .13
1.2.4 交付阶段的数据分析 .15
第2章 量化策略分析框架.20
2.1 探索阶段 23
2.2 诊断阶段 24
2.3 指导阶段 27
第3章 量化策略分析流程.29
3.1 发现问题 31
3.2 近因分析 33
3.3 根因分析 35
3.4 做出预测 36
3.5 制定方案 37
3.6 验证方案 38
3.7 工具支持 39
第2篇 技术篇
第4章 数据处理.42
4.1 使用pandas读取结构化数据 .43
4.1.1 读取数据 .44
4.1.2 写出数据 .47
4.2 数据整合 47
4.2.1 行、列操作 .47
4.2.2 条件查询 .51
4.2.3 横向连接 .54
4.2.4 纵向合并 .57
4.2.5 排序 .60
4.2.6 分组汇总 .61
4.2.7 拆分列 .65
4.2.8 赋值与条件赋值 .66
4.3 数据清洗 69
4.3.1 重复值处理 .69
4.3.2 缺失值处理 .70
第5章 数据可视化74
5.1 Python可视化 74
5.1.1 Matplotlib绘图库 .74
5.1.2 Seaborn绘图库.83
5.2 描述性统计分析与绘图 89
5.2.1 描述性统计进行数据探索 .89
5.2.2 制作报表与统计图形 .99
第6章 市场调研与数据预处理.107
6.1 数据采集方法 107
6.1.1 市场研究中的数据 .107
6.1.2 概率抽样方法 .108
6.1.3 非概率抽样方法 .114
6.1.4 概率抽样和非概率抽样的比较 .116
6.2 市场调研和数据录入 116
6.2.1 市场调研流程 .116
6.2.2 市场调研目标设定 .117
6.2.3 市场调研前的准备工作 .117
6.2.4 实施调研 .124
6.3 数据预处理基础 125
6.3.1 数据预处理基本步骤 .125
6.3.2 错误数据识别与处理 .126
6.3.3 连续变量离群值识别与处理 .130
6.3.4 分类变量概化处理 .132
6.3.5 缺失值处理 .133
6.3.6 连续变量分布形态转换 .136
6.3.7 连续变量中心标准化或归一化 .137
6.3.8 变量降维 .138
6.3.9 WoE转换 139
第7章 数据降维方法141
7.1 矩阵分析法 141
7.2 连续变量降维 146
7.2.1 方法概述 .147
7.2.2 变量筛选 .147
7.2.3 维度规约 .147
7.3 主成分分析法 148
7.3.1 主成分分析简介 .148
7.3.2 主成分分析原理 .149
7.3.3 主成分分析的运用 .152
7.3.4 实战案例:在Python中实现主成分分析 .153
7.3.5 基于主成分的冗余变量筛选 .156
7.4 因子分析法 157
7.4.1 因子分析模型 .158
7.4.2 因子分析算法 .159
7.4.3 实战案例:在Python中实现因子分析 .162
第8章 使用统计学方法进行检验和预测.167
8.1 假设检验 167
8.1.1 假设检验的基本原理 .168
8.1.2 假设检验中的两类错误 .169
8.1.3 假设检验与区间估计的联系 .170
8.1.4 假设检验的基本步骤 .171
8.1.5 配对样本t检验172
8.2 方差分析 172
8.2.1 单因素方差分析 .173
8.2.2 多因素方差分析 .178
8.3 列联表分析与卡方检验 181
8.3.1 列联表 .1818.3.2 卡方检验 .183
8.4 线性回归 185
8.4.1 简单线性回归 .185
8.4.2 多元线性回归 .187
8.4.3 多元线性回归的变量筛选 .196
8.4.4 线性回归模型的经典假设 .199
8.4.5 建立线性回归模型的基本步骤 .208
8.5 逻辑回归 209
8.5.1 逻辑回归的相关关系分析 211
8.5.2 逻辑回归模型及实现 213
8.5.3 逻辑回归的极大似然估计 223
8.5.4 模型评估 .225
8.5.5 因果推断模型 .233
第9章 用户分群方法.239
9.1 用户细分与聚类 239
9.1.1 用户细分的重要意义 .23
99.1.2 用户细分的不同商业主题 .240
9.2 聚类分析的基本概念 247
9.3 聚类模型的评估 248
9.3.1 轮廓系数 .248
9.3.2 平方根标准误差 249
9.3.3 R2 2499.3.4 ARI 250
9.4 层次聚类 250
9.4.1 层次聚类算法描述 .251
9.4.2 层次聚类分群数量的确定 .254
9.4.3 层次聚类应用简单示例 .255
9.4.4 层次聚类的特点 .260
9.5 K-means聚类算法 260
9.5.1 K-means聚类算法描述 260
9.5.2 K-means聚类算法的应用:用户细分 261
9.6 聚类事后分析:决策树应用 269
9.6.1 决策树的基本概念 .269
9.6.2 利用决策树解读用户分群后的特征 .271
第3篇 管理篇
第10章 企业数据管理方法论.274
10.1 基本概念和关键术语解析 274
10.1.1 背景与目标 .274
10.1.2 数据管理主要模块及其关系 .276
10.1.3 数据生存周期管理 .279
10.2 输入和资源需求 282
10.2.1 业务战略 .282
10.2.2 组织文化 .283
10.2.3 架构设计和IT系统现状说明 .283
10.3 数据治理流程 283
10.3.1 “盘”:盘清现状 .284
10.3.2 “规”:制定规范 .289
10.3.3 “治”:问题整治 .291
10.3.4 “用”:数据应用 .292
10.4 输出和绩效评估 292
10.4.1 数据管理的输出 .292
10.4.2 数据管理的绩效评估 .293
10.5 数据管理的成熟度模型 294
10.5.1 能力域和能力项 .294
10.5.2 成熟度评估等级 .298
10.6 数据资产价值评估与数据资源入表 301
10.6.1 数据资产价值评估方法 .301
10.6.2 数据资源入表 .305
10.7 本章小结 307
第11.章 企业数据安全管理方法论.308
11.1 数据安全导论 308
11.1.1 数据安全需求 .308
11.1.2 数据安全定义 .312
11.1.3 数据安全管理目标和原则 .312
11.2 输入和资源需求 314
11.2.1 业务需求 .314
11.2.2 监管要求 .314
11.3 数据生存周期安全管理流程 314
11.3.1 数据安全需求分析 .314
11.3.2 制定数据安全制度和细则 .315
11.3.3 数据的分类分级 .316
11.3.4 数据安全实施控制 .319
11.4 输出和绩效评估 321
11.4.1 数据安全的输出 .321
11.4.2 数据安全的绩效评估 322
11.5 数据安全能力成熟度模型 323
11.6 本章小结 327
内容介绍
本书作为CDA三级认证教材,打破了传统的学院派知识整合模式,从业务应用场景出发来组织内容, 旨在更加贴近业务需求,而非单纯罗列算法。经过多年的打磨,本书精选了在行业应用中价值优选的九类场景,并提供不同场景下构建数据应用的很好实践。 本书涉及的算法不仅涵盖传统的统计学习,还结合企业实际需求,解构了机器学习、深度学习的前沿方法,并提供了丰富的示例代码, 以便读者借鉴。本书分为三篇:理论篇、技术篇和管理篇。 理论篇共1章,讲解数据挖掘的核心思维、算法模型和数据挖掘之间的关系, 以及数据挖掘的落地场景框架。技术篇共6章,讲解决策类、识别类、优化分析类模型的具体算法,以及参数调优、特征工程、类别不平衡问题等内容。管理篇共2章,讲解 MLOps 和模型生命周期管理。