商品详情
书名:大数据治理:理论与方法
定价:58.0
ISBN:9787121421815
作者:无
版次:第1版
出版时间:2021-10
内容提要:
大数据治理是传统信息治理的延续和扩展,其涉及的内容非常广泛。大数据治理确保以正确的方式对数据和信息进行管理,为大数据的有效应用保驾护航,使得数据成为一个有机整体而不是各自为政。大数据治理所需的技术支撑需要涵盖大数据管理、存储、质量、共享与开放、安全与隐私保护等多个方面。本书首先对大数据治理的背景和基本概念进行简要介绍,尝试为读者提供对大数据治理的基础认识;然后从政策、管理和技术等多个方面对大数据治理相关的概念和方法加以介绍,对数据架构管理、元数据管理、主数据管理、大数据集成、数据质量管理、数据的标准化、数据资产化、数据安全与隐私保护等进行深入探讨,以期为读者提供一个比较全面的大数据治理的场景。本书适合作为高等院校“数据科学与大数据”专业的本科生、研究生的教材,也可供大数据领域的从业人员阅读,还可为对大数据治理感兴趣的广大读者提供参考。
作者简介:
王宏志 哈尔滨工业大学计算机科学与技术学院教授、博士生导师,英才学院副院长,美国加州大学欧文分校博士后,微软亚洲研究院铸星计划访问学者,青年龙江学者。其研究方向为大数据管理与分析、数据库系统、工业大数据等。在VLDB, SIGMOD等国内外重要会议和期刊发表学术论文200余篇,出版学术专著三本,其论文被SCI收录80余次,他引1800余次,授权发明专利22项。获得微软学者、中国优秀数据库工程师、IBM博士英才等称号,获得黑龙江省自然科学一等奖和***高等学校科技进步一等奖各一项,获黑龙江省青年科技奖、宝钢优秀教师奖、CSC-IBM奖教金。先后主持国家自然科学基金重点项目、国家支撑计划课题、国家博士后特别资助等10余个项目。其主讲的MOOC课程“大数据算法”获批**批全国精品在线开放课程。中国计算机学会杰出会员,中国计算机学会哈尔滨分部主席、ACM SIGMOD中国秘书长、***高等学校计算机类专业教学指导委员会计算机系统专家委员会委员、中国数据库专业委员会常务委员、黑龙江省数据科学与大数据技术专业委员会副主任委员、中国大数据专家委员会委员、哈尔滨工业大学计算学部校友会秘书长、ACM数据科学学科标准编写组专家、黑龙江省“头雁团队”成员。
目录:
第1 章 大数据治理的背景和基本概念………………………………………………… 1
1. 1 大数据治理的定义………………………………………………………… 2
1. 2 大数据治理的应用………………………………………………………… 3
1. 2. 1 大数据治理的任务…………………………………………………… 3
1. 2. 2 数据治理与数据管理的区别…………………………………………… 4
1. 2. 3 大数据治理的典型案例……………………………………………… 4
1. 3 大数据治理的挑战………………………………………………………… 7
1. 3. 1 大数据的发展和现状………………………………………………… 7
1. 3. 2 当下面临的挑战……………………………………………………… 8
1. 4 本书的主要内容…………………………………………………………… 9
第2 章 数据架构管理……………………………………………………………… 11
2. 1 数据架构概述…………………………………………………………… 12
2. 2 IBM 数据架构参考模型………………………………………………… 13
2. 2. 1 逻辑层……………………………………………………………… 14
2. 2. 2 垂直层……………………………………………………………… 16
2. 3 企业数据架构参考模型………………………………………………… 17
2. 4 CESI 大数据参考架构模型……………………………………………… 18
2. 5 大数据技术参考架构…………………………………………………… 19
2. 6 数据湖(Data Lake) …………………………………………………… 20
2. 7 面向大数据的数据架构实现…………………………………………… 21
2. 7. 1 Hadoop ……………………………………………………………… 21
2. 7. 2 Storm ……………………………………………………………… 23
2. 7. 3 Spark ……………………………………………………………… 24
2. 7. 4 三种架构的比较分析………………………………………………… 25
2. 8 数据架构设计原则……………………………………………………… 25
第3 章 元数据管理………………………………………………………………… 27
3. 1 元数据概述……………………………………………………………… 28
3. 1. 1 定义………………………………………………………………… 28
3. 1. 2 组织方式…………………………………………………………… 29
3. 1. 3 作用和意义………………………………………………………… 31
3. 2 业务元数据……………………………………………………………… 32
3. 2. 1 意义………………………………………………………………… 32
3. 2. 2 概念………………………………………………………………… 33
3. 2. 3 实践要点…………………………………………………………… 34
3. 3 技术元数据……………………………………………………………… 34
3. 3. 1 意义………………………………………………………………… 34
3. 3. 2 概念………………………………………………………………… 35
3. 3. 3 实践要点…………………………………………………………… 36
3. 4 元数据管理……………………………………………………………… 36
3. 4. 1 元数据管理方案…………………………………………………… 37
3. 4. 2 元数据标准和规范………………………………………………… 39
3. 4. 3 元数据管理的成熟度………………………………………………… 40
第4 章 主数据管理………………………………………………………………… 42
4. 1 概述……………………………………………………………………… 43
4. 1. 1 主数据的概念……………………………………………………… 43
4. 1. 2 主数据的类型……………………………………………………… 44
4. 1. 3 主数据管理的基本思路……………………………………………… 44
4. 2 主数据管理系统………………………………………………………… 45
4. 2. 1 主数据管理的架构设计……………………………………………… 46
4. 2. 2 主数据管理的核心功能……………………………………………… 50
4. 2. 3 主数据管理的实现风格……………………………………………… 50
4. 3 主数据管理的成熟度…………………………………………………… 52
第5 章 大数据集成………………………………………………………………… 56
5. 1 数据集成的基本概念…………………………………………………… 57
5. 1. 1 数据集成的定义…………………………………………………… 57
5. 1. 2 数据集成的分类…………………………………………………… 58
5. 1. 3 数据集成的难点…………………………………………………… 59
5. 2 传统数据集成…………………………………………………………… 60
5. 2. 1 联邦数据库系统…………………………………………………… 61
5. 2. 2 中间件集成………………………………………………………… 62
5. 2. 3 数据仓库…………………………………………………………… 63
5. 3 传统数据集成的关键技术……………………………………………… 65
5. 3. 1 模式匹配…………………………………………………………… 65
5. 3. 2 数据映射…………………………………………………………… 66
5. 4 跨界数据集成…………………………………………………………… 67
5. 4. 1 基于阶段的集成…………………………………………………… 67
5. 4. 2 基于特征的集成…………………………………………………… 68
5. 4. 3 基于语义的集成…………………………………………………… 68
第6 章 数据质量管理……………………………………………………………… 71
6. 1 概述……………………………………………………………………… 72
6. 1. 1 数据质量定义……………………………………………………… 72
6. 1. 2 数据质量问题……………………………………………………… 74
6. 2 缺失值填充……………………………………………………………… 76
6. 2. 1 什么是缺失值……………………………………………………… 76
6. 2. 2 缺失值处理方法…………………………………………………… 77
6. 2. 3 缺失值处理例析…………………………………………………… 79
6. 3 实体识别与真值发现…………………………………………………… 81
6. 3. 1 什么是实体识别…………………………………………………… 81
6. 3. 2 基于规则的实体识别方法…………………………………………… 81
6. 3. 3 什么是真值发现…………………………………………………… 84
6. 3. 4 真值发现方法……………………………………………………… 85
6. 5 错误检测与修复………………………………………………………… 85
6. 5. 1 格式内容清洗……………………………………………………… 85
6. 5. 2 逻辑错误清洗……………………………………………………… 86
6. 5. 3 非需求数据清洗…………………………………………………… 87
6. 6 面向大数据的数据清洗………………………………………………… 87
6. 6. 1 大数据清洗的探索………………………………………………… 87
6. 6. 2 时间序列错误清洗………………………………………………… 88
6. 6. 3 基于众包的数据清洗………………………………………………… 90
第7 章 数据标准化………………………………………………………………… 92
7. 1 数据标准化概述………………………………………………………… 93
7. 1. 1 数据标准…………………………………………………………… 93
7. 1. 2 数据标准管理……………………………………………………… 94
7. 1. 3 企业数据标准化…………………………………………………… 95
7. 2 数据标准化例析………………………………………………………… 95
7. 2. 1 工业大数据………………………………………………………… 95
7. 2. 2 信息技术元数据注册系统…………………………………………… 97
第8 章 数据资产化………………………………………………………………… 98
8. 1 数据资产管理概述……………………………………………………… 99
8. 1. 1 数据资产…………………………………………………………… 99
8. 1. 2 数据资产管理……………………………………………………… 100
8. 2 数据资产发现与评估…………………………………………………… 101
8. 2. 1 数据资产发现……………………………………………………… 101
8. 2. 2 数据资产评估……………………………………………………… 102
8. 3 数据交易与数据定价…………………………………………………… 103
8. 3. 1 数据交易………………………………………………………… 103
8. 3. 2 数据定价………………………………………………………… 106
8. 4 拓展: 大数据拍卖模型………………………………………………… 107
8. 4. 1 问题背景………………………………………………………… 107
8. 4. 2 基本拍卖模型……………………………………………………… 107
8. 4. 3 扩展的Vickrey 拍卖模型…………………………………………… 108
8. 4. 4 扩展的序贯拍卖模型……………………………………………… 111
第9 章 数据安全与隐私保护………………………………………………… 114
9. 1 概述……………………………………………………………………… 115
9. 1. 1 基本概念………………………………………………………… 115
9. 1. 2 数据安全与数据管理生命周期……………………………………… 116
9. 2 数据安全存储、传输与访问…………………………………………… 117
9. 2. 1 加密存储和传输…………………………………………………… 117
9. 2. 2 访问控制………………………………………………………… 120
9. 3 数据安全检索与处理…………………………………………………… 121
9. 3. 1 安全检索………………………………………………………… 121
9. 3. 2 安全处理………………………………………………………… 124
9. 4 隐私保护………………………………………………………………… 125
9. 4. 1 基本概念………………………………………………………… 125
9. 4. 2 数据脱敏………………………………………………………… 127
9. 4. 3 k-匿名…………………………………………………………… 128
9. 2. 4 差分隐私………………………………………………………… 130
定价:58.0
ISBN:9787121421815
作者:无
版次:第1版
出版时间:2021-10
内容提要:
大数据治理是传统信息治理的延续和扩展,其涉及的内容非常广泛。大数据治理确保以正确的方式对数据和信息进行管理,为大数据的有效应用保驾护航,使得数据成为一个有机整体而不是各自为政。大数据治理所需的技术支撑需要涵盖大数据管理、存储、质量、共享与开放、安全与隐私保护等多个方面。本书首先对大数据治理的背景和基本概念进行简要介绍,尝试为读者提供对大数据治理的基础认识;然后从政策、管理和技术等多个方面对大数据治理相关的概念和方法加以介绍,对数据架构管理、元数据管理、主数据管理、大数据集成、数据质量管理、数据的标准化、数据资产化、数据安全与隐私保护等进行深入探讨,以期为读者提供一个比较全面的大数据治理的场景。本书适合作为高等院校“数据科学与大数据”专业的本科生、研究生的教材,也可供大数据领域的从业人员阅读,还可为对大数据治理感兴趣的广大读者提供参考。
作者简介:
王宏志 哈尔滨工业大学计算机科学与技术学院教授、博士生导师,英才学院副院长,美国加州大学欧文分校博士后,微软亚洲研究院铸星计划访问学者,青年龙江学者。其研究方向为大数据管理与分析、数据库系统、工业大数据等。在VLDB, SIGMOD等国内外重要会议和期刊发表学术论文200余篇,出版学术专著三本,其论文被SCI收录80余次,他引1800余次,授权发明专利22项。获得微软学者、中国优秀数据库工程师、IBM博士英才等称号,获得黑龙江省自然科学一等奖和***高等学校科技进步一等奖各一项,获黑龙江省青年科技奖、宝钢优秀教师奖、CSC-IBM奖教金。先后主持国家自然科学基金重点项目、国家支撑计划课题、国家博士后特别资助等10余个项目。其主讲的MOOC课程“大数据算法”获批**批全国精品在线开放课程。中国计算机学会杰出会员,中国计算机学会哈尔滨分部主席、ACM SIGMOD中国秘书长、***高等学校计算机类专业教学指导委员会计算机系统专家委员会委员、中国数据库专业委员会常务委员、黑龙江省数据科学与大数据技术专业委员会副主任委员、中国大数据专家委员会委员、哈尔滨工业大学计算学部校友会秘书长、ACM数据科学学科标准编写组专家、黑龙江省“头雁团队”成员。
目录:
第1 章 大数据治理的背景和基本概念………………………………………………… 1
1. 1 大数据治理的定义………………………………………………………… 2
1. 2 大数据治理的应用………………………………………………………… 3
1. 2. 1 大数据治理的任务…………………………………………………… 3
1. 2. 2 数据治理与数据管理的区别…………………………………………… 4
1. 2. 3 大数据治理的典型案例……………………………………………… 4
1. 3 大数据治理的挑战………………………………………………………… 7
1. 3. 1 大数据的发展和现状………………………………………………… 7
1. 3. 2 当下面临的挑战……………………………………………………… 8
1. 4 本书的主要内容…………………………………………………………… 9
第2 章 数据架构管理……………………………………………………………… 11
2. 1 数据架构概述…………………………………………………………… 12
2. 2 IBM 数据架构参考模型………………………………………………… 13
2. 2. 1 逻辑层……………………………………………………………… 14
2. 2. 2 垂直层……………………………………………………………… 16
2. 3 企业数据架构参考模型………………………………………………… 17
2. 4 CESI 大数据参考架构模型……………………………………………… 18
2. 5 大数据技术参考架构…………………………………………………… 19
2. 6 数据湖(Data Lake) …………………………………………………… 20
2. 7 面向大数据的数据架构实现…………………………………………… 21
2. 7. 1 Hadoop ……………………………………………………………… 21
2. 7. 2 Storm ……………………………………………………………… 23
2. 7. 3 Spark ……………………………………………………………… 24
2. 7. 4 三种架构的比较分析………………………………………………… 25
2. 8 数据架构设计原则……………………………………………………… 25
第3 章 元数据管理………………………………………………………………… 27
3. 1 元数据概述……………………………………………………………… 28
3. 1. 1 定义………………………………………………………………… 28
3. 1. 2 组织方式…………………………………………………………… 29
3. 1. 3 作用和意义………………………………………………………… 31
3. 2 业务元数据……………………………………………………………… 32
3. 2. 1 意义………………………………………………………………… 32
3. 2. 2 概念………………………………………………………………… 33
3. 2. 3 实践要点…………………………………………………………… 34
3. 3 技术元数据……………………………………………………………… 34
3. 3. 1 意义………………………………………………………………… 34
3. 3. 2 概念………………………………………………………………… 35
3. 3. 3 实践要点…………………………………………………………… 36
3. 4 元数据管理……………………………………………………………… 36
3. 4. 1 元数据管理方案…………………………………………………… 37
3. 4. 2 元数据标准和规范………………………………………………… 39
3. 4. 3 元数据管理的成熟度………………………………………………… 40
第4 章 主数据管理………………………………………………………………… 42
4. 1 概述……………………………………………………………………… 43
4. 1. 1 主数据的概念……………………………………………………… 43
4. 1. 2 主数据的类型……………………………………………………… 44
4. 1. 3 主数据管理的基本思路……………………………………………… 44
4. 2 主数据管理系统………………………………………………………… 45
4. 2. 1 主数据管理的架构设计……………………………………………… 46
4. 2. 2 主数据管理的核心功能……………………………………………… 50
4. 2. 3 主数据管理的实现风格……………………………………………… 50
4. 3 主数据管理的成熟度…………………………………………………… 52
第5 章 大数据集成………………………………………………………………… 56
5. 1 数据集成的基本概念…………………………………………………… 57
5. 1. 1 数据集成的定义…………………………………………………… 57
5. 1. 2 数据集成的分类…………………………………………………… 58
5. 1. 3 数据集成的难点…………………………………………………… 59
5. 2 传统数据集成…………………………………………………………… 60
5. 2. 1 联邦数据库系统…………………………………………………… 61
5. 2. 2 中间件集成………………………………………………………… 62
5. 2. 3 数据仓库…………………………………………………………… 63
5. 3 传统数据集成的关键技术……………………………………………… 65
5. 3. 1 模式匹配…………………………………………………………… 65
5. 3. 2 数据映射…………………………………………………………… 66
5. 4 跨界数据集成…………………………………………………………… 67
5. 4. 1 基于阶段的集成…………………………………………………… 67
5. 4. 2 基于特征的集成…………………………………………………… 68
5. 4. 3 基于语义的集成…………………………………………………… 68
第6 章 数据质量管理……………………………………………………………… 71
6. 1 概述……………………………………………………………………… 72
6. 1. 1 数据质量定义……………………………………………………… 72
6. 1. 2 数据质量问题……………………………………………………… 74
6. 2 缺失值填充……………………………………………………………… 76
6. 2. 1 什么是缺失值……………………………………………………… 76
6. 2. 2 缺失值处理方法…………………………………………………… 77
6. 2. 3 缺失值处理例析…………………………………………………… 79
6. 3 实体识别与真值发现…………………………………………………… 81
6. 3. 1 什么是实体识别…………………………………………………… 81
6. 3. 2 基于规则的实体识别方法…………………………………………… 81
6. 3. 3 什么是真值发现…………………………………………………… 84
6. 3. 4 真值发现方法……………………………………………………… 85
6. 5 错误检测与修复………………………………………………………… 85
6. 5. 1 格式内容清洗……………………………………………………… 85
6. 5. 2 逻辑错误清洗……………………………………………………… 86
6. 5. 3 非需求数据清洗…………………………………………………… 87
6. 6 面向大数据的数据清洗………………………………………………… 87
6. 6. 1 大数据清洗的探索………………………………………………… 87
6. 6. 2 时间序列错误清洗………………………………………………… 88
6. 6. 3 基于众包的数据清洗………………………………………………… 90
第7 章 数据标准化………………………………………………………………… 92
7. 1 数据标准化概述………………………………………………………… 93
7. 1. 1 数据标准…………………………………………………………… 93
7. 1. 2 数据标准管理……………………………………………………… 94
7. 1. 3 企业数据标准化…………………………………………………… 95
7. 2 数据标准化例析………………………………………………………… 95
7. 2. 1 工业大数据………………………………………………………… 95
7. 2. 2 信息技术元数据注册系统…………………………………………… 97
第8 章 数据资产化………………………………………………………………… 98
8. 1 数据资产管理概述……………………………………………………… 99
8. 1. 1 数据资产…………………………………………………………… 99
8. 1. 2 数据资产管理……………………………………………………… 100
8. 2 数据资产发现与评估…………………………………………………… 101
8. 2. 1 数据资产发现……………………………………………………… 101
8. 2. 2 数据资产评估……………………………………………………… 102
8. 3 数据交易与数据定价…………………………………………………… 103
8. 3. 1 数据交易………………………………………………………… 103
8. 3. 2 数据定价………………………………………………………… 106
8. 4 拓展: 大数据拍卖模型………………………………………………… 107
8. 4. 1 问题背景………………………………………………………… 107
8. 4. 2 基本拍卖模型……………………………………………………… 107
8. 4. 3 扩展的Vickrey 拍卖模型…………………………………………… 108
8. 4. 4 扩展的序贯拍卖模型……………………………………………… 111
第9 章 数据安全与隐私保护………………………………………………… 114
9. 1 概述……………………………………………………………………… 115
9. 1. 1 基本概念………………………………………………………… 115
9. 1. 2 数据安全与数据管理生命周期……………………………………… 116
9. 2 数据安全存储、传输与访问…………………………………………… 117
9. 2. 1 加密存储和传输…………………………………………………… 117
9. 2. 2 访问控制………………………………………………………… 120
9. 3 数据安全检索与处理…………………………………………………… 121
9. 3. 1 安全检索………………………………………………………… 121
9. 3. 2 安全处理………………………………………………………… 124
9. 4 隐私保护………………………………………………………………… 125
9. 4. 1 基本概念………………………………………………………… 125
9. 4. 2 数据脱敏………………………………………………………… 127
9. 4. 3 k-匿名…………………………………………………………… 128
9. 2. 4 差分隐私………………………………………………………… 130
- 电子工业出版社有限公司
- 电子工业出版社有限公司有赞官方供货商,为客户提供一流的知识产品及服务。
- 扫描二维码,访问我们的微信店铺