商品详情
书名:数据科学难点解惑
书号:978-7-5239-0155-7
定价:88元
作者:[墨西哥]丹尼尔·沃恩(Daniel Vaughan)
出版时间:2025-08-18
出版社:中国电力出版社
页码: 276 字数(千字):319
开本:16开 版次:1 印次:1
品牌介绍
中国电力出版社成立于 1951 年,作为中国成立最早的中央科技出版社之一,曾隶属于水利电力部、能源部、电力工业部、国家电力公司,现为国家电网公司所属的科技出版社,在电气技术专业出版领域享有极高的声誉。该社作为以图书出版为主体,音像、电子出版物、期刊、网络出版共同发展的大型出版企业,以强大的出版资源和高素质的专业队伍,致力于向读者提供包括电力工程、电气工程、建筑工程、电子技术、信息技术、外语、大中专教材、家教等学科门类齐全的权威出版物,也竭力为广大师生提供精品教材,是教育部和北京市教委规划教材的出版基地之一。
编辑推荐
编辑推荐 本书提供了一系列在传统数据工程和数据科学教育中被忽视的技术和最佳实践。一个普遍的误解是,优秀的数据科学家是该领域“重大主题”的专家,即机器学习和编程。然而,大多数情况下,这些工具只能帮助我们到达某个程度。实际上,真正区分顶级数据科学家与普通数据科学家的是这些重大主题中的细微差别,以及对业务产生影响的能力。 总体而言,本书使一名普通数据科学家候选人与在行业中表现卓越的数据科学家之间产生了差异。本书作者将这些技能汇集、扩展并应用于为来自不同公司和行业的数据科学家创造价值和培训。 专家推荐 “Daniel又写了一部杰作,作为数据科学家与商业高管之间价值创造的连接纽带。这本书是实现数据科学商业成功所缺失的手册。” ——Adri Purkayastha Global Head of AI Technology Risk, BNP Paribas “涵盖了从经济学到广告,再到流行病学的所有内容,以及如何在实践中应用数据科学技术。它从大多数书籍结束的地方开始,即基于数据洞察的实际决策过程。这是任何数据科学家书架上早该添加的作品。” ——Brett Holleman Freelance data scientist
产品特色
精通数据科学的技巧。
作者介绍
Daniel Vaughan曾领导不同公司和行业的数据团队,目前正在为几家金融科技公司提供咨询,帮助确保其数据、机器学习和人工智能计划的成功。他拥有超过 15年的机器学习开发经验和超过 8年的数据科学团队领导经验。Daniel 获得了纽约大学经济学的博士学位。
内容介绍
本书的主要内容有:确保数据科学工作流程创造价值。设计可操作的、及时的和相关的指标。提供引人瞩目的叙述以获得利益相关者的支持。使用模拟确保你的机器学习算法是解决该问题的正确工具。识别、纠正和预防数据泄露。通过估计因果效应理解增量性。
本书适用于这本书面向所有级别的数据科学家编写。
前言
前言 我认为学习和实践数据科学是困难的。这是因为人们期望你不仅要成为一名优秀的程序员,掌握数据结构及其计算复杂性的细微差别,还要精通Python 和SQL。统计学及最新的机器学习预测技术应该是你的第二语言,你还需要能够应用所有这些知识来解决可能出现的实际商业问题。然而,这项工作也很困难,因为你还必须成为一位优秀的沟通者,能够向不熟悉数据驱动决策的非技术利益相关者讲述引人入胜的故事。 所以,让我们诚实一点:数据科学的理论与实践很难几乎是不言而喻的。任何旨在覆盖数据科学困难部分的书籍,要么是百科全书式的全面,要么必须经过预筛选流程,剔除某些主题。 我必须一开始就承认,这是一系列我认为在数据科学学习中较难的主题,而这一标签本质上是主观的。为了减少主观性,我想说这些主题并不是因为复杂性而更难学习,而是因为在当今阶段,这个职业对这些作为入门主题的重要性评估相对较低。因此,在实践中,它们更难学习,因为很难找到相关的材料。 数据科学课程通常强调学习编程和机器学习,这也是我称之为数据科学中的“大主题”。几乎所有其他内容都要在工作中学习,不幸的是,能否找到一个导师,对你的第一份或第二份工作有很大影响。大型科技公司好的地方在于它们拥有同样庞大的人才密度,所以这些相对隐形的主题成为当地公司亚文化的一部分,而这些信息对许多从业人员来说是难以获得的。 这本书旨在帮助你成为一名更高效的数据科学家。我将其分为两个部分:数据分析的主题和数据科学的软技能,以及关于机器学习(ML)。 尽管可以按照任意顺序阅读而不会产生重大摩擦,但某些章节确实引用了之前的章节;大多数情况下,你可以跳过这些引用,内容仍然会保持清晰和自解释。引用主要用于提供在看似独立主题之间的统一感。 第一部分包含的主题: 第1 章,那又怎样?利用数据科学创造价值 数据科学在为组织创造价值中的作用是什么?如何衡量? 第2 章,指标设计 我认为数据科学家最适合改进可操作指标的设计。在这里,我向你展示如何做到这一点。 第3 章,增长分解:理解顺境与逆境 了解业务发生的情况并提出引人注目的故事是数据科学家常见的任务。本章介绍一些可以用来自动化部分工作流程的增长分解。 第4 章,2×2 设计 学习简化世界可以帮助你走得更远,而2×2 设计将帮助你实现这一目标,并改善与利益相关者的沟通。 第5 章,构建商业案例 在开始项目之前,你应该有一个商业案例。本章向你展示如何做到这一点。 第6 章,提升度是什么 虽然很简单,提升度可以加快你可能考虑用机器学习完成的分析。我在本章中解释提升度。 第7 章,叙述 数据科学家需要变得更擅长讲故事和构建引人入胜的叙述。在这里,我向你展示如何做到。 第8 章,数据可视化:选择正确的图表来传递信息 花足够的时间在数据可视化上也应该有助于你的叙述。本章讨论了一些最佳实践。 第二部分是关于机器学习(ML)的部分: 第9 章,模拟法和自助法 模拟技术可以帮助你加强对不同预测算法的理解。我将向你展示如何使用,以及使用你最喜欢的回归和分类技术时的一些注意事项。我还讨论了可以用来找到一些难以计算的估计值的置信区间的抽样技术。 第10 章,线性回归:回到基础 深入了解线性回归对于理解一些更高级的主题至关重要。在这一章中,我回到基础知识,希望能够为机器学习算法提供更强的直观基础。 第11 章,数据泄露 什么是数据泄露,如何识别和防止它?本章将说明。 第12 章,生产化模型 一个模型只有在它达到生产阶段时才是有用的。幸运的是,这是一个被很好理解和结构化的问题,我会展示这些步骤中的关键步骤。 第13 章,机器学习中的故事讲述 你可以使用一些优秀的技术来打开黑箱子,以便在机器学习中出色地讲述故事。 第14 章,从预测到决策 我们通过数据驱动和机器学习驱动的流程增强决策能力,从而创造价值。这里我向你展示如何从预测转向决策的例子。 第15 章,增量:数据科学的圣杯 因果关系在数据科学中得到了越来越多的关注,但仍然被视为一个相对小众的领域。在这章中,我将介绍基础知识,并提供可以在你的组织中直接应用的示例和代码。 第16 章,A/B 测试 A/B 测试是估计替代行动增量性的典型例子。但实验需要一些强大的统计学背景(和商业知识)。 第17 章是比较特殊的,因为这是唯一一章没有呈现任何技术的地方。在这里,我对数据科学的未来做了一些推测,考虑到生成性人工智能(AI)的出现。主要收获是,我预计职位描述在未来几年会发生剧烈变化,数据科学家应该为这场革命做好准备。 这本书面向所有级别和资历的数据科学家编写。为了充分利用本书,最好具备中高级的机器学习算法知识,因为我不会花时间介绍线性回归、分类和回归树或集成学习,例如随机森林或梯度提升机。 排版约定 本书采用以下排版约定。 斜体(Italic) 表示新术语、URL、电子邮件地址、文件名和文件扩展名。 等宽字体(Constant width) 表示程序清单,在段落内表示程序元素,例如变量、函数名称、数据库、数据类型、环境变量、语句和关键字。 使用代码示例 本书附带资源(代码示例、练习等)的下载地址:https://oreil.ly/dshp-repo。 与本书相关的技术问题,或者在使用代码示例上有疑问,请发电子邮件到bookquestions@oreilly.com。 本书是要帮你完成工作的。一般来说,如果本书提供了示例代码,你可以把它用在你的程序或文档中。除非你使用了很大一部分代码,否则无需联系我们获得许可。比如,用本书的几个代码片段写一个程序就无需获得许可,销售或分发O’Reilly 图书的示例集则需要获得许可;引用本书中的示例代码回答问题无需获得许可,将书中大量的代码放到你的产品文档中则需要获得许可。我们很希望但并不强制要求你在引用本书内容时加上引用说明。引用说明一般包括书名、作者、出版社和ISBN,例如:“Data Science: The Hard Parts by Daniel Vaughan (O’Reilly). Copyright 2024 Daniel Vaughan, 978-1-098-14647-4”。 如果你觉得自己对示例代码的使用超出了上述许可范围,请通过permissions@oreilly.com 与我们联系。 O’Reilly 在线学习平台(O’Reilly Online Learning) 近40 年来,O’Reilly Media 致力于提供技术和商业培训、知识和卓越见解,来帮助众多公司取得成功。 公司独有的专家和改革创新者网络通过O’Reilly 书籍、文章以及在线学习平台,分享他们的专业知识和实践经验。O’Reilly 在线学习平台按照您的需要提供实时培训课程、深入学习渠道、交互式编程环境以及来自O’Reilly 和其他200 多家出版商的大量书籍与视频资料。更多信息,请访问网站:https://www.oreilly.com/。 联系我们 任何有关本书的意见或疑问,请按照以下地址联系出版社。 美国: O’Reilly Media, Inc. 1005 Gravenstein Highway North Sebastopol, CA 95472 中国: 北京市西城区西直门南大街2 号成铭大厦C 座807 室(100035) 奥莱利技术咨询(北京)有限公司 勘误、示例和其他信息可访问https://oreil.ly/data-science-the-hard-parts 获取。 对本书中文版的勘误可以发电子邮件到errata@oreilly.com.cn。 欲了解本社图书和课程的新闻和信息,请访问https://oreilly.com。 我们的LinkedIn:https://linkedin.com/company/oreilly-media。 我们的Twitter:https://twitter.com/oreillymedia。 我们的YouTube:https://youtube.com/oreillymedia。 致谢 我在Clip 的内部技术研讨会上展示了本书涵盖的许多主题。因此,我要感谢我有幸领导、指导和学习的优秀数据团队。他们的专业知识对本书的内容和形式的塑造至关重要。 我还要由衷感谢我的编辑Corbin Collins,他耐心且友好地校对了手稿,发现了错误和遗漏,并提出了很多建议,从而在许多方面显著改善了呈现效果。我还特别感谢Jonathon Owen(产品编辑)和Sonia Saruba(校对编辑),感谢他们敏锐的眼光、卓越的技能和奉献精神。他们的共同努力显著提升了本书的质量,对此我将永远感激。 感谢技术审阅人员,他们找到书中内容和代码示例的错误和打字错误,并提出改进建议。特别感谢Naveen Krishnaraj、Brett Holleman 和Chandra Shukla,感谢他们提供的详细反馈。尽管我们并不总是达成一致,但他们的建设性批评在使我谦卑的同时也让我感受到加强。不用说,所有剩余的错误都是我自己的。他们永远不会看到这段文字,但我永远感激我的狗Matilda 和Domingo,感谢它们无尽的爱、欢笑、温柔和陪伴。 我还要感谢我的朋友和家人, 感谢他们的无条件支持和鼓励。特别感谢Claudia:你在我不断讨论这些想法时给予的耐心,尽管这些想法对你来说几乎毫无意义,这种耐心是无法估量的。 最后,我要感谢无数在数据科学领域工作的研究人员和从业者,他们的工作启发了我并为我提供了信息。如果没有他们的奉献和贡献,本书将无法存在,我荣幸地成为这个充满活力的社区的一部分。 感谢大家的支持。
目录
目录
前言 1
第一部分 数据分析技术
第1 章 那又怎样?利用数据科学创造价值 11
11 价值是什么 11
12 是什么:了解业务 12
13 所以呢:在DS 中创造价值的要点 14
14 现在怎么办:成为一个积极进取的人 15
15 衡量价值16
16 关键要点18
17 扩展阅读19
第2 章 指标设计 21
21 指标应具备的理想属性 21
211 可衡量 21
212 可操作性 22
213 相关性 22
214 及时性 22
22 指标分解23
221 漏斗分析 23
222 存量流量分解 24
223 P×Q 型分解 25
23 例子:另一种收入分解 25
24 例子:市场 26
25 关键要点27
26 扩展阅读28
第3 章 增长分解:理解顺境与逆境 29
31 为什么要进行增长分解 29
32 加法分解30
321 例子 30
322 解释和用例 31
33 乘法分解32
331 例子 33
332 解释 34
34 混合比率分解 34
341 例子 35
342 解释 36
35 数学推导37
351 加法分解 37
352 乘法分解 37
353 混合比率分解 38
36 关键要点39
37 扩展阅读39
第4 章 2×2 设计 41
41 简化的案例 41
42 什么是2×2 设计 42
43 示例:测试模型和新功能 44
44 示例:了解用户行为 46
45 例子:信贷发放和接收 48
46 示例:确定工作流程的优先级 49
47 关键要点50
48 扩展阅读51
第5 章 构建商业案例 53
51 构建商业案例的一些原则 53
52 示例:主动留存策略 54
53 欺诈罪预防 56
54 购买外部数据集 57
55 从事一个数据科学项目 58
56 关键要点58
57 扩展阅读59
第6 章 提升度是什么 61
61 定义提升度 61
62 示例:分类器模型 62
63 自选择偏差和幸存者偏差 63
64 提升度的其他用途 65
65 关键要点65
66 扩展阅读66
第7 章 叙述 67
71 什么是叙述:用你的数据来讲故事67
711 清晰明了的 68
712 可信的 70
713 难忘的 71
714 可操作的 72
72 构建一个故事 72
721 科学讲述 72
722 什么,那又怎样,现在怎么办 74
73 最后的阶段 75
731 写TL;DR 75
732 如何撰写令人难忘的TL;DR 76
733 示例:为本章节写TL;DR 77
734 进行有力的电梯演讲79
735 展现你的叙述 79
74 关键要点80
75 扩展阅读81
第8 章 数据可视化:选择正确的图表来传递信息 83
81 一些有用的和不太常用的数据可视化 83
811 条形图和折线图 83
812 斜线图 85
813 瀑布图 86
814 平滑散点图 87
815 绘制分布 88
82 一般建议90
821 为你想传达的信息找到正确的图表 90
822 明智的选择颜色 91
823 图表中的不同维度 92
824 争取足够大的数据墨水比率 92
825 定制与半自动化相比93
826 从一开始就确定正确的字体大小 93
827 交互的或者静态的 94
828 保持简单 94
829 从解释图表开始 95
83 关键要点95
84 扩展阅读95
第二部分 机器学习
第9 章 模拟法和自助法 99
91 基本的模拟 100
92 模拟线性模型和线性回归 103
93 什么是部分依赖图 105
94 遗漏变量偏差 110
95 模拟分类问题 113
951 潜在变量模型 113
952 比较不同算法 114
96 自助法 116
97 关键要点 119
98 扩展阅读120
第10 章 线性回归:回到基础 121
101 什么是系数 121
102 FrischWaughLovell 定理 125
103 为什么你应该关心FWL 128
104 干扰因子 129
105 额外变量 131
106 在机器学习中变化是中心角色 133
107 关键要点 137
108 扩展阅读 138
第11 章 数据泄露 141
111 什么是数据泄露 141
1111 结果也是一个特征 142
1112 特征是结果的函数 142
1113 不良控制变量 142
1114 时间戳标记错误 143
1115 具有不规则时间聚合的多个数据集 143
1116 其他信息的泄露 144
112 检测数据泄露 145
113 完全分离 147
114 窗口方法 149
1141 选择窗户的长度 151
1142 训练阶段与评分阶段相对应 152
1143 实现窗口方法 153
115 有数据泄露了:现在怎么办 154
116 关键要点 155
117 扩展阅读 155
第12 章 生产化模型 157
121 “生产就绪”是什么意思157
1211 批量评分(离线) 158
1212 实时模型对象 160
122 数据和模型漂移 161
123 任何生产流程中的基本步骤 163
1231 获取和转换数据 163
1232 验证数据 164
1233 训练和评分阶段 166
1234 验证模型和评分 166
1235 部署模型和评分 167
124 关键要点 167
125 扩展阅读 168
第13 章 机器学习中的故事讲述 171
131 机器学习故事讲述的全过程 171
132 事前和期间讲故事 172
1321 提出假设 173
1322 特征工程 176
133 事后讲故事:打开黑盒子179
1331 可解释性和性能的权衡 179
1332 线性回归:设置一个基准 181
1333 特征重要性183
1334 热图 185
1335 部分依赖图187
1336 累积局部效应 189
134 关键要点 191
135 扩展阅读 192
第14 章 从预测到决策 195
141 剖析决策制定 196
142 明智的阈值产生简单的决策规则 197
1421 精确率和召回率 198
1422 例子:潜在客户生成 200
143 混淆矩阵优化 202
144 关键要点 204
145 扩展阅读 204
第15 章 增量:数据科学的圣杯 205
151 定义增量 205
1511 从因果推理到提升预测 206
1512 因果推理作为差异化因素 206
1513 提升决策制定 207
152 干扰因子和对撞因子 207
153 选择偏差 211
154 无混淆假设 215
155 打破选择偏差:随机化 216
156 匹配 217
157 机器学习和因果推理 220
1571 打开源代码库 221
1572 双重机器学习 222
158 关键要点 224
159 扩展阅读 225
第16 章 A/B 测试 229
161 什么是A/B 测试 229
162 决策标准 230
163 最小可检测效应 234
1631 选择统计功效、显著性水平和P 值 237
1632 估计结果的方差 238
1633 模拟 239
1634 例子:转换费率 240
1635 设置MDE 241
164 假设列表 242
1641 指标 243
1642 假设 243
1643 排名 243
165 实验治理 244
166 关键要点 245
167 扩展阅读 246
第17 章 大型语言模型和数据科学实践 249
171 当前人工智能的状态 249
172 数据科学家们做什么 251
173 不断演变的数据科学家职位描述 253
1731 案例学习:A/B 测试 255
1732 案例学习:数据清理 256
1733 案例学习:机器学习 256
174 LLM 和本书 257
175 关键要点 258
176 扩展阅读 259
- 有电书房
- 扫描二维码,访问我们的微信店铺