商品详情
在当今这个数据驱动的时代,数据质量无疑是企业决策与业务发展的基石。然而,如何有效地提升数据质量,构建一个稳健、高效的数据体系,却是许多企业和数据从业者面临的共同挑战。这本书正是为解决这一难题而生。作者以深厚的行业经验和专业知识,精心提炼出一套实用的4步方法论,帮助读者从源头到终端,全方位地提升数据质量。这4步不仅逻辑清晰,易于理解,而且具有很强的可操作性,读者可以轻松地将其应用于实际工作中,取得立竿见影的效果。此外,书中还包含了大量来自各行各业的实战案例,这些案例不仅展示了数据质量提升的实际效果,更提供了宝贵的经验和教训,让读者在学习的过程中少走弯路,更快地掌握数据质量管理的精髓。总的来说,《数据质量实践手册:4步构建高质量数据体系》是一本极具价值的数据治理指南,它既有理论深度,又注重实践操作,无论是对数据新手还是专业人士,都是一本不可多得的佳作。我相信,通过这本书的学习,每一位读者都能在数据质量管理的道路上取得显著的进步,为企业的发展贡献自己的力量。
高质量的数据关乎企业运营、合规、决策和业绩的关键,哈佛商业评论的一项研究发现,企业中只有3%的数据符合质量标准,绝大多数公司都在寻求切实可行的指导来提高数据质量。本书作者基于多年在数据、数据分析和人工智能方面的实践经验,阐述了4步构建高质量数据体系。他提出了高质量数据的四阶段DARS方法(定义、评估、实现、持续)和10个数据质量最佳实践案例,以此来提高业务中的数据质量水平,为业务提供数据价值,保证生成的数据可以有效支持高级分析和人工智能。在本书中,您将学习定义和评估数据质量的技术、标准和度量指标,了解如何确保公司的数据收集实践避免常见的陷阱。本书适合数据科学家、数据分析师、商业智能专业人士、首席技术官和数据官,以及对收集和使用高质量数据感兴趣的人士。对于有志成为首席数据官的各位读者,这是一本难得的宝典级书籍!
作者简介
普拉桑特amp;苏特卡尔(Prashanth Southekal)
博士,知名的数据分析和人工智能顾问、作家和教授,曾为包括宝洁、通用电气、壳牌、苹果、联邦快递和SAP在内的80多家公司提供咨询服务。他是Data for Business Performance和Analytics Best Practices的作者,定期在Forbes和CFO University上发表关于数据分析和人工智能的文章。他是麻省理工学院CDOIQ研讨会的编辑委员会成员,也是硅谷风险投资公司BGV(Benhamou Global Ventures)的顾问委员会成员,还是IE商学院(西班牙马德里)的数据和分析副教授。CDO Magazine将他列入2022年全球75位学术数据领导者之列。除了从事咨询和顾问工作外,他还在全球培训了3000多名数据和分析专业人员。
译者简介
马欢
DAMA中国主席,DAMA中国数据管理社区主理人,获得CDMP Master认证,是《数据管理知识体系指南(DMBOK)》第1版和第2版的主要译者,对DAMA的数据管理知识体系有深刻的认识和理解,翻译了多部作品。
巫雪辉
资深数据架构师和数据团队管理者,获得CDMP Master认证,拥有超过20年的数据管理领域的项目实施经验,职业生涯一直专注于大数据技术的研发、应用和创新,特别是在数据治理和数据质量管理方面,积累了丰富的项目实践经验和深入的技术见解。
目录推荐序前言致谢第1篇定 义 阶 段第1章概述1.1引言1.2数据、数据分析、人工智能和业务绩效1.3数据作为业务资产或负债1.4数据治理、数据管理和数据质量1.5领导层对数据质量的承诺1.6关键要点1.7结论参考文献第2章业务数据2.1引言2.2业务中的数据2.3遥测数据2.4数据在业务中的用途2.5业务数据视角2.6业务数据的关键特征2.7关键数据元素2.8关键要点2.9结论参考文献第3章业务中的数据质量3.1引言3.2数据质量维度3.3上下文中的数据质量3.4数据质量不佳所产生的影响3.5数据贬值及其影响因素3.6IT系统中的数据3.7数据质量和可信信息3.8关键要点3.9结论参考文献第2篇评 估 阶 段第4章数据质量差的原因4.1引言4.2数据质量问题根本原因分析工具4.3数据质量不佳的典型原因4.4关键要点4.5结论参考文献第5章数据生命周期和数据血缘5.1引言5.2数据生命周期5.3数据血缘5.4关键要点5.5结论参考文献第6章数据质量分析6.1引言6.2数据剖析的标准6.3测量中心性的数据剖析技术6.4测量变异性的数据剖析技术6.5整合中心性和变异性KPI6.6关键要点6.7结论参考文献//数据质量实践手册:4步构建高质量数据体系目录//第3篇实 现 阶 段第7章数据质量参考架构7.1引言7.2数据质量解决方案7.3DataOps7.4数据产品7.5数据编织和数据网格7.6数据增强7.7关键要点7.8结论参考文献第8章数据质量最佳实践(一)8.1引言8.2最佳实践概述8.3BP 1:确定业务KPI以及这些KPI和相关数据的所有权8.4BP 2:建立和提高组织中的数据文化和素养8.5BP 3:确定当前和期望的数据质量的状态8.6BP 4:遵循极简主义原则的数据采集方法8.7BP 5:选择并定义用于提高质量的数据属性8.8BP 6:使用MDM系统中的数据标准采集和管理关键数据8.9关键要点8.10结论参考文献第9章数据质量最佳实践(二)9.1引言9.2BP 7:合理化和自动化关键数据元素的集成9.3BP 8:定义SoR并在SoR/OLTP系统中安全地采集交易数据9.4BP 9:构建和管理强大的数据集成能力9.5BP 10:分发数据来源与洞察消费9.6关键要点9.7结论参考文献第4篇持 续 阶 段第10章数据治理10.1引言10.2数据治理原则10.3数据治理设计组件10.4实施数据治理计划10.5数据可观察性10.6数据合规性ISO 27001、SOC1和SOC210.7关键要点10.8结论参考文献第11章数据保护11.1引言11.2数据分类11.3存储相关的数据安全11.4访问相关的数据安全11.5关键要点11.6结论参考文献第12章数据伦理12.1引言12.2数据伦理的定义12.3数据伦理的重要性12.4数据伦理的原则12.5模型漂移中的数据伦理12.6数据隐私12.7管理数据伦理12.8关键要点12.9结论参考文献
【前言】当前,人工智能、机器学习、商业智能、区块链等新兴技术飞速发展,极具吸引力。所有这些新技术都依赖于高质量数据,也就是它们只有在可靠的数据基础上才能发挥作用。若它们在错误的数据基础上运行,根本就不会起作用。计算机科学与信息通信技术领域有GIGO(Garbage In Garbage Out)原则,它是指如果将错误的、无意义的垃圾数据输入计算机系统,计算机系统也一定会输出错误的、无意义的垃圾结果。因此,新兴技术需要以高质量数据作为基础,而数据质量往往被忽视。
普拉桑特amp;苏特卡尔(Prashanth Southekal)博士的这本书聚焦数据质量,探讨了关键领域中数据管理和数据治理的最佳实践,内容十分全面。数据质量的先驱拉里amp;英格利什(Larry English)一定会为苏特卡尔博士所做的工作感到自豪。因为苏特卡尔博士浇灌了他在许多年前播下的数据质量概念的种子,这些种子已经在一片郁郁葱葱、翠绿欲滴之地茁壮成长。
我从这本书中受益匪浅。这本书有如下亮点:
数据定义数据是什么,以及它为什么在业务中很重要。
数据血缘许多作者忽略了这个主题。
数据记录系统大多数作者都忽略的一个重要概念。
认识数据量在决策中发挥的重要作用。
数据治理什么是数据治理以及如何进行数据治理。
数据保护和数据安全对于任何现代组织来说都是必不可少的。
数据伦理大多数作者都没有涉及这个主题。
数据所有权和管理责任。
如果你要构建依赖于数据的系统,或者有更加宏大的目标,那么通过阅读此书,你将打下坚实的基础。
;数据仓库之父比尔amp;恩门(Bill Inmon)//数据质量实践手册:4步构建高质量数据体系
本书定位
如今,每家公司都可以说是数据公司,数据正在重新定义以数据分析和人工智能为核心的业务模式,它带来了新的收入来源,降低了成本,减少了业务风险。麦肯锡的一份报告称,数据驱动的组织可以提供高达25%的EBITDA(利息、税收和折旧前利润率)增长(Bringer等,2022)。波士顿咨询公司在2022年进行的一项研究中发现,全球前10家创新公司中的9家都是数据公司(Manly等,2022)。总体而言,数据被认为是当今业务创新和生产力的关键推动因素。
要从数据中获得业务价值,则需要优质的数据,但大多数行业都面临着低劣数据质量的问题。《哈佛商业评论》研究发现,在企事业单位中只有3% 的数据符合质量标准 (Nagle 等,2017)。研究分析机构 Gartner 发现,全球顶级公司中有27% 的数据存在缺陷。为了让组织从数据中获得竞争优势,本书为读者提供了实用性的指导和经过验证的解决方案,以获取高质量的业务数据。虽然市场上有很多关于数据质量的书籍,但本书有以下三个独特之处:
(1) 这是一本写给数据相关领域从业者的书。本书基于作者在数据、数据分析和人工智能方面的经验,他为80多家公司提供过咨询,其中包括通用电气、SAP、宝洁、苹果和壳牌等大公司。此外,书中内容还得到了世界各地许多领先组织的高级数据和技术领导者的审核。
(2)这是一本符合当前市场和技术发展的书。如今,公司面临着激烈的竞争、扩大的业务网络、不断增加的监管合规性要求,以及新兴技术的挑战,如云计算、大数据、机器学习(ML)、人工智能(AI)、区块链、物联网(IoT)等。本书正是迎合了当前在人工智能和分析场景中管理高质量业务数据的需求。
(3)这是一本不限定于某种技术的书。市场上的许多与数据质量相关的图书都围绕IT 产品展开,而本书则着眼于技术概念,不涉及任何专有或特定技术。本书旨在通过数据提高业务绩效。任何渴望获得高质量数据,并利用其进行决策支持和创新发展的企业领导者,都可以阅读此书。
本书原则
1.以数据消费者为中心
本书的目的是增加利用数据实现更好的业务绩效的机会。在以下三种关键情况下,可以提高数据的业务价值:存在高质量数据;侧重于数据的利用或消费;利用数据来提高和优化业务在运营、合规和决策方面的能力。简而言之,本书的重点是获取和管理高质量的数据,以改进业务运营、合规和决策方面的能力。
2.根因分析与持续改进
数据质量管理不是一次性活动,而是一个持续识别并解决根本原因的改进计划。因为如果没有找到问题的根本原因,问题就永远无法真正消除。因此,本书重点关注运用技术来确定数据质量问题的根源,并讨论了16个常见的导致企业数据质量下降的根源。
3.最佳实践的总结
本书致力于帮助企业提高数据质量水平,并依据行业最佳实践提供了10项具体的客观建议或最佳实践,其中包括提高企业数据质量所需要具备的能力。此外,本书还提供了许多基于调研和案例研究的见解。
4.业务相关性
本书适用于在当前业务、人工智能和分析环境中管理高质量数据。如果缺乏高质量数据,仅基于人工智能分析产生的洞察是无法改善业务绩效的。实际上,没有数据就没有人工智能,不考虑数据质量的人工智能没有意义。
本书结构
那么,企业如何获取和管理高质量的数据呢?获取和管理高质量数据的方法是什么?为了回答这些问题,本书提出一种4步构建高质量数据体系的DARS方法,该方法包括定义(Define)、评估(Assess)、实现(Realize)和持续(Sustain)。这种方法既是一种战略,也是一种战术,旨在从数据中为企业提供最大价值。本书依据经过验证的最佳实践,提供实用的指导建议,帮助读者在数据质量管理和治理方面取得成功。
本书分为四篇,对应4步DARS法实现的高质量数据体系。第一篇为定义阶段,旨在明确定义数据质量及其特征或维度,引导读者更好地理解数据和数据质量。第二篇为评估阶段,用于确定各项数据质量水平并查明数据问题产生的根源。第三篇为实现阶段,即贯彻行业最佳实践,改善整个生命周期的数据质量。第四篇为持续阶段,用于确保已实现的所有收益得以延续。
利用4步DARS法来改善和提高数据质量的过程类似于改善一个人的健康状况。首先,需要定义健康状态,因为健康可以从身体、精神、心理等多个方面来评估。其次,需要确定具体健康状况的特征或维度,例如,在身体健康方面,这些维度可能包括力量、灵活性、耐力等。再次,需要进行深入分析并理解问题产生的根本原因,因为通常问题只是表征或症状。例如,身体健康状况不佳的症状之一是疲劳,需要进行分析和评估以确定根本原因,如糖化血红蛋白(A1C)测试可能会表明导致疲劳感的根本原因是Ⅱ型糖尿病。因此,需要解决的问题是治疗Ⅱ型糖尿病而不仅仅是解决疲劳感。接下来,需要采取不同方法的组合来解决导致疲劳的Ⅱ型糖尿病,如药物、健康饮食(包括蔬菜、水果和全谷类)、冥想和定期锻炼。最后,需要采取正确的控制措施,并定期进行体检,以确保采取的措施可以持续下去。
本书分为12章,按照4步DARS法逐一展开,如图P.1所示。图P.1本书组织结构
本书读者
本书介绍了数据质量管理和数据治理的核心概念,还提供了一种逐步实现和保持高质量数据、提升业务绩效的方法论。该方法论适用于所有对利用业务数据价值有兴趣的人,包括业务团队和IT团队,不需要基础即可理解并应用本书中所述的概念。本书读者对象包括CFO(首席财务官)、CDO(首席数据官)、首席信息官、会计师、地质学家、IT开发人员、采购主管、理赔分析师、数据科学家、销售经理、数据治理分析师、承保人员、人力资源经理、其他商业或IT角色。简而言之,任何人都可以从本书中学习实现和保持高质量业务数据的方法。
本书是基于我在数据、数据分析和人工智能的咨询、研究和教学领域二十多年的经验所写的。撰写本书的过程比我预想的更加具有挑战性,但也给我带来了更多的收获。这本书是团队合作的结果,许多人对这本书的撰写产生了积极的影响。撰写这本书是一次独特的学习与协作体验,同时也是我迄今为止最佳的;投资之一。在整个撰写过程中,我有幸与顶尖的数据和数据分析研究者以及行业专家进行讨论,他们给了我很多帮助。
首先,我要感谢;数据仓库之父比尔amp;恩门(Bill Inmon)为本书撰写推荐序。作为行业资深人士和思想领袖,比尔在全球市场上有着广泛的影响力,并深知高质量数据对企业蓬勃发展的重要性。我从大学时代就开始关注比尔及其工作,并一直深受启发。比尔能够为此书撰写推荐序,让我感到非常荣幸。
其次,我要衷心感谢Wiley团队的所有成员,包括Sheck Cho、Samantha Wu和Susan Cerra,她们在项目期间给予我帮助和支持。我还要特别感谢Michael Taylor、Tobias Zwingmann、Christophe Bourguignat、Sreenivas Gadhar和Tony Almeida,他们抽出时间仔细审阅本书并给予宝贵的反馈。同时,我还要非常感激我的咨询客户和IE商学院(西班牙马德里)的学生,因为他们为我提供了理解数据、数据分析和人工智能之间微妙差别的机会。最后,我要特别感谢我公司DBP_Institute(DBP代表业务绩效数据)的顾问Gary Cokins、Suresh Chakravarthi和Sana Gabula,他们在我的写作过程中提供了正确的指导和支持。
最后,这本书的写作历经两年之久,其间我不得不从家庭活动中抽出很多时间。在此,我非常感激我的妻子Shruthi Belle以及我的两个可爱的孩子Pranathi和Prathik,他们理解这本书对我以及整个数据、人工智能和数据分析社区的意义,并给予我巨大的支持、激励和鼓舞。没有他们的理解、支持和耐心,我不可能完成这本书的写作。
- 新华一城书集 (微信公众号认证)
- 上海新华书店官方微信书店
- 扫描二维码,访问我们的微信店铺
- 随时随地的购物、客服咨询、查询订单和物流...