商品详情
真实数据科学
作者:[美]郁彬 丽贝卡·L·巴特
书号:337500
定价:¥96 元
字数:485 千字
印次:1-1
开本:16
出版时间:2025-08-01
ISBN:978-7-300-33750-0
包装:平
内容简介
本书以“真实数据科学”为核心视角,通过扎实且具实践导向的内容,深入解析负责任的数据科学实践路径。从提出PCS框架(可预测性、可计算性、稳定性)切入,贯穿数据科学生命周期全流程,探究如何通过批判性思维和实证评估,确保数据分析结果的可信度,避免“数据窥探”和误导性结论。
同时,本书敏锐聚焦数据科学实践中的关键环节,借助全球器官捐献数据、美国农业部食物营养数据等真实案例,详细演示数据清洗、探索性数据分析、模型构建等技术的实际应用,展现多重因素如何影响分析质量,以及如何通过严谨的全流程管理提升结果的可靠性。
通过本书,读者将深入理解数据科学实践的核心逻辑,掌握解锁负责任的数据分析与决策的有效方法,了解如何在复杂的真实数据场景中得出可信的结论,从而成为推动数据科学负责任应用的实践者。
作者介绍
郁彬 国际著名统计学家,美国国家科学院院士,美国艺术与科学院院士。现任加利福尼亚大学伯克利分校统计系、电子工程系和计算生物中心的校长杰出教授,西蒙斯计算理论研究所高级顾问。她在统计机器学习理论、高维数据分析、可信人工智能等方面成绩斐然,并且对交叉学科的研究既广泛又深入(包括神经科学、基因组学和医学人工智能),享有很高的国际声誉。
郁彬教授于1984年毕业于北京大学数学系。1990年获加利福尼亚大学伯克利分校统计学博士学位。2009—2012年期间担任加利福尼亚大学伯克利分校统计系主任。2006年当选古根海姆学者,2012年发表伯努利协会的图基纪念演讲,是泛华统计学会2012年首届许宝禄奖的三位获得者之一。曾任2013—2014年度国际数理统计学会(IMS)主席。2016年举办国际数理统计学会Rietz讲座。2018年获COPSS颁发的Elizabeth L. Scott Award。2021年获瑞士洛桑大学荣誉博士。2023年举办国际数理统计学会Wald讲座并获COPSS DAAL奖。现担任《美国国家科学院院刊》(PNAS)编辑委员会委员。
丽贝卡· L. 巴特(Rebecca L. Barter) 犹他大学研究助理教授。2019年毕业于加利福尼亚大学伯克利分校,取得统计学博士学位。致力于改进当前的统计学、数据素养和教学方法,包括入门和高级水平,并深入研究医疗数据,开发预测模型和进行解释性的数据可视化。
目 录
第1部分 简介
第1章 真实数据科学简介
1.1 数据和算法在现实决策中的作用
1.2 运用批判性思维评估和建立可信度
1.3 使用 PCS 框架评估和建立可信度
练习题
第2章 数据科学生命周期
2.1 数据术语
2.2 DSLC 阶段1:问题构建和数据收集
2.3 DSLC 阶段2:数据清洗、预处理和探索性数据分析
2.4 DSLC 阶段3:探索数据的内在结构
2.5 DSLC 阶段4:预测和/或推断分析
2.6 DSLC 阶段5:评估结果
2.7 DSLC 阶段6:沟通结果和更新领域知识
练习题
第3章 建立数据科学项目
3.1 编程语言和集成开发环境
3.2 一致的项目结构
3.3 可重复性
3.4 协作工具
练习题
第2部分 准备、探索和描述数据
第4章 数据准备
4.1 器官捐献数据
4.2 通用的数据清洗流程
4.3 步骤1:了解数据收集过程和问题域
4.4 步骤2:加载数据 / 57
4.5 步骤3:检查数据并创建操作项
4.6 步骤4:清洗数据
4.7 其他常见的预处理步骤
练习题
第5章 探索性数据分析
5.1 基于问答的探索性数据分析工作流程
5.2 常见的数据汇总方法
5.3 可比性
5.4 探索性数据分析结果的PCS审查
练习题
第6章 主成分分析
6.1 食物营养项目
6.2 生成归纳变量:主成分分析
6.3 预处理:为了可比性的标准化
6.4 奇异值分解
6.5 预处理:高斯性和变换
6.6 主成分分析步骤总结
6.7 PCS评估主成分分析
6.8 将主成分分析应用于每个营养组
6.9 主成分分析的替代方法
练习题
第7章 聚类
7.1 理解聚类
7.2 层次聚类
7.3 K-means 聚类
7.4 高维聚类可视化
7.5 聚类质量的定量度量
7.6 比较聚类相似性的兰德指数
7.7 选择类别数
7.8 聚类结果的PCS审查
7.9 最终的聚类结果
练习题
第3部分 预测
第8章 预测问题简介
8.1 连接过去、现在和未来的预测问题
8.2 设置预测问题
8.3 PCS和评估预测算法
8.4 艾奥瓦州艾姆斯房价预测项目
练习题
第9章 连续响应和最小二乘法
9.1 可视化预测关系
9.2 使用拟合直线生成预测
9.3 计算拟合直线
9.4 预测性能的量化指标1
9.5 预测结果的 PCS 审查
练习题
第10章 最小二乘法的推广
10.1 基于多个解释变量的线性拟合
10.2 预处理:独热编码
10.3 预处理:变量变换
10.4 变量选择
10.5 正则化
10.6 PCS评估
10.7 附录:线性拟合的矩阵形式
练习题
第11章 二元响应变量和逻辑回归
11.1 在线购物购买预测项目
11.2 二元预测的最小二乘法
11.3 逻辑回归
11.4 二元预测性能的定量度量
11.5 二元预测结果的PCS审查
练习题
第12章 决策树和随机森林算法
12.1 决策树
12.2 分类与回归树算法
12.3 随机森林算法
12.4 随机森林变量重要性度量
12.5 CART和RF算法的PCS评估
练习题
第13章 生成最终预测结果
13.1 方法1:使用PCS选择单一预测拟合
13.2 方法2:PCS集成
13.3 方法3:校准的PCS预测扰动区间
13.4 选择最终预测方法
13.5 在实际应用中使用预测
练习题
第14章 结论
14.1 可预测性
14.2 稳定性和不确定性
14.3 PCS的未来方向:推断
14.4 结束语
判断练习参考答案
参考文献
精彩样章
与大多数人认为“数据科学”就是一个算法的工具箱不同,“其实数据科学”涵盖了整个数据科学生命周期(data science life cycle,DSLC)。DSLC描述了每个数据科学项目所经历的特定非线性路径。它从问题制定、数据收集和数据清洗开始,经过多种类型的数据分析,最终对某些数据指导结果进行评估,并将结果传达给领域受众。将数据科学视为一个多阶段过程的观点可以追溯到Box(1976)和Cox and Snell(1981)。
数据科学工作流通常被描述为一个简单、线性的分析过程,即制定一个可以通过适当分析现有数据来回答明确问题的过程。然而,如果你参与过现实中的数据科学项目,就会知道这是一种在实践中实施数据科学的极度简化的看法。大多数现实中的数据科学项目都从一个令人困惑的模糊领域问题开始,你必须用一个充满歧义和错误的混乱数据集来回答这个问题(这些数据肯定不是为了你的项目而收集的),并且要进行一系列分析,而这些分析的潜在假设往往并不完全适用于你手头的数据。最终,经过数月(或数年)的艰苦工作,你通常能展示的结果只是一组令人沮丧的、不确定的结论。
- 人民大学出版社微店 (微信公众号认证)
- 人大出版社自营微店,正版人大出版社书籍直发,品质保证!
- 扫描二维码,访问我们的微信店铺
- 随时随地的购物、客服咨询、查询订单和物流...