商品详情
书名:大数据技术基础
定价:49.8
ISBN:9787115636492
作者:张成文
版次:第1版
出版时间:2024-08
内容提要:
大数据技术作为处理海量数据的关键工具,在数据分析、数据计算、资源管理等领域得到广泛应用。本书从初学者的角度出发,*系统地介绍了Python大数据分析、数据存储、离线计算与实时计算等基本概念与方法,并以大量案例帮助读者理解大数据技术的方方面面。此外,本书还介绍了Kafka、图数据处理、OLAP数据分析、分布式资源管理和大数据处理架构等知识,以帮助读者快速熟悉大数据技术,并应用大数据技术解决现实生活中的问题。 本书内容新颖,案例丰富,既可作为高等院校计算机、数据分析等相关专业的教学用书,也可供对大数据技术感兴趣的初学者,以及从事数据科学、大数据技术研究和应用开发的人员参考。
作者简介:
张成文,北京邮电大学计算机学院副教授,中国人工智能学会*会员,在国际SCI期刊、电子学报英文版等国内外期刊上发表了几十篇高水平SCI论文,在计算机学报等国内top级学报上以及国际会议上发表了几十篇高水平EI论文。以项目负责人及骨干的身份参加了多个国家和部级科研项目,主要包括国家科技重大专项项目、国家973计划项目、国家863计划重大项目、国家自然科学基金项目、*新世纪*人才计划项目等。在研项目:智能感知网络及其在智慧城市中应用研究,“智慧系统”基础理论及体系架构研究,物联网服务边缘适配与集成协同模式挖掘研究等。
目录:
第 1章 大数据概述 1
1.1 基本概念 1
1.1.1 5V特征 1
1.1.2 数据类型 2
1.1.3 大数据平台 3
1.1.4 大数据的处理流程 4
1.2 相关技术 5
1.2.1 数据采集 5
1.2.2 数据预处理 6
1.2.3 数据存储 6
1.2.4 数据挖掘与数据分析 6
1.2.5 数据可视化 8
1.3 应用领域 9
1.4 课后习题 9
第 2章 Python大数据分析 10
2.1 Python介绍 10
2.1.1 Python的应用场景 10
2.1.2 Python的优点与缺点 10
2.2 NumPy介绍 11
2.2.1 NumPy的应用场景 11
2.2.2 NumPy的数组对象与用法 11
2.3 pandas介绍 15
2.3.1 pandas的应用场景 15
2.3.2 pandas的数据结构与用法 15
2.4 Matplotlib介绍 20
2.4.1 Matplotlib库的应用场景 20
2.4.2 图表绘制 20
2.5 实践操作 28
2.6 小结 33
2.7 课后习题 33
第3章 Kafka 34
3.1 Kafka介绍 34
3.1.1 Kafka的基本架构 34
3.1.2 Kafka的作用 36
3.2 Kafka的重要特性 37
3.2.1 高吞吐 37
3.2.2 高可用 38
3.3 安装与配置 39
3.3.1 ZooKeeper的安装与配置 39
3.3.2 Kafka的安装与配置 40
3.4 实践操作 41
3.5 小结 44
3.6 课后习题 44
第4章 数据存储 45
4.1 HDFS 45
4.1.1 Hadoop介绍 45
4.1.2 HDFS介绍 46
4.1.3 安装与配置 51
4.1.4 实践操作 61
4.1.5 小结 66
4.1.6 课后习题 66
4.2 HBase 66
4.2.1 HBase介绍 66
4.2.2 技术对比 70
4.2.3 安装与配置 71
4.2.4 实践操作 73
4.2.5 小结 75
4.2.6 课后习题 76
4.3 Redis 76
4.3.1 Redis介绍 76
4.3.2 安装与配置 80
4.3.3 实践操作 82
4.3.4 小结 85
4.3.5 课后习题 85
第5章 图数据处理 86
5.1 Neo4j 86
5.1.1 Neo4j介绍 86
5.1.2 安装与配置 89
5.1.3 实践操作 90
5.1.4 小结 96
5.1.5 课后习题 97
5.2 Spark GraphX 97
5.2.1 图计算基础知识 97
5.2.2 Spark GraphX介绍 99
5.2.3 实践操作 101
5.2.4 小结 106
5.2.5 课后习题 106
第6章 离线计算 107
6.1 MapReduce 107
6.1.1 MapReduce介绍 108
6.1.2 安装与配置 110
6.1.3 实践操作 112
6.1.4 小结 133
6.1.5 课后习题 134
6.2 Spark 134
6.2.1 Spark介绍 134
6.2.2 RDD 138
6.2.3 安装与配置 143
6.2.4 实践操作 145
6.2.5 小结 151
6.2.6 课后习题 151
第7章 实时计算 152
7.1 Storm 152
7.1.1 流计算介绍 152
7.1.2 Storm介绍 153
7.1.3 实践操作 156
7.1.4 小结 164
7.1.5 课后习题 164
7.2 Spark Streaming 165
7.2.1 Spark Streaming介绍 165
7.2.2 DStream操作 168
7.2.3 实践操作 172
7.2.4 小结 174
7.2.5 课后习题 175
7.3 Flink 175
7.3.1 Flink介绍 175
7.3.2 技术对比 179
7.3.3 实践操作 180
7.3.4 小结 186
7.3.5 课后习题 186
第8章 OLAP数据分析 187
8.1 Pig 187
8.1.1 Pig介绍 187
8.1.2 Pig Latin语言介绍 189
8.1.3 Pig的安装与配置 191
8.1.4 实践操作 192
8.1.5 小结 195
8.1.6 课后习题 196
8.2 Hive 196
8.2.1 数据仓库介绍 196
8.2.2 Hive介绍 197
8.2.3 技术对比 201
8.2.4 安装与配置 202
8.2.5 实践操作 205
8.2.6 小结 211
8.2.7 课后习题 211
8.3 Spark SQL 211
8.3.1 Spark SQL介绍 211
8.3.2 实践操作 214
8.3.3 小结 218
8.3.4 课后习题 218
第9章 分布式资源管理 219
9.1 YARN介绍 219
9.1.1 YARN的基本架构 220
9.1.2 YARN组件功能 221
9.1.3 YARN的执行过程 223
9.2 实践操作 224
9.3 小结 230
9.4 课后习题 230
第 10章 大数据处理架构 231
10.1 Lambda架构介绍 231
10.1.1 Lambda的基本结构 231
10.1.2 优势与不足 232
10.2 Kappa架构介绍 233
10.2.1 Kappa的基本结构 233
10.2.2 优势与不足 234
10.3 架构对比 234
10.4 小结 235
10.5 课后习题 235
参考文献 236
定价:49.8
ISBN:9787115636492
作者:张成文
版次:第1版
出版时间:2024-08
内容提要:
大数据技术作为处理海量数据的关键工具,在数据分析、数据计算、资源管理等领域得到广泛应用。本书从初学者的角度出发,*系统地介绍了Python大数据分析、数据存储、离线计算与实时计算等基本概念与方法,并以大量案例帮助读者理解大数据技术的方方面面。此外,本书还介绍了Kafka、图数据处理、OLAP数据分析、分布式资源管理和大数据处理架构等知识,以帮助读者快速熟悉大数据技术,并应用大数据技术解决现实生活中的问题。 本书内容新颖,案例丰富,既可作为高等院校计算机、数据分析等相关专业的教学用书,也可供对大数据技术感兴趣的初学者,以及从事数据科学、大数据技术研究和应用开发的人员参考。
作者简介:
张成文,北京邮电大学计算机学院副教授,中国人工智能学会*会员,在国际SCI期刊、电子学报英文版等国内外期刊上发表了几十篇高水平SCI论文,在计算机学报等国内top级学报上以及国际会议上发表了几十篇高水平EI论文。以项目负责人及骨干的身份参加了多个国家和部级科研项目,主要包括国家科技重大专项项目、国家973计划项目、国家863计划重大项目、国家自然科学基金项目、*新世纪*人才计划项目等。在研项目:智能感知网络及其在智慧城市中应用研究,“智慧系统”基础理论及体系架构研究,物联网服务边缘适配与集成协同模式挖掘研究等。
目录:
第 1章 大数据概述 1
1.1 基本概念 1
1.1.1 5V特征 1
1.1.2 数据类型 2
1.1.3 大数据平台 3
1.1.4 大数据的处理流程 4
1.2 相关技术 5
1.2.1 数据采集 5
1.2.2 数据预处理 6
1.2.3 数据存储 6
1.2.4 数据挖掘与数据分析 6
1.2.5 数据可视化 8
1.3 应用领域 9
1.4 课后习题 9
第 2章 Python大数据分析 10
2.1 Python介绍 10
2.1.1 Python的应用场景 10
2.1.2 Python的优点与缺点 10
2.2 NumPy介绍 11
2.2.1 NumPy的应用场景 11
2.2.2 NumPy的数组对象与用法 11
2.3 pandas介绍 15
2.3.1 pandas的应用场景 15
2.3.2 pandas的数据结构与用法 15
2.4 Matplotlib介绍 20
2.4.1 Matplotlib库的应用场景 20
2.4.2 图表绘制 20
2.5 实践操作 28
2.6 小结 33
2.7 课后习题 33
第3章 Kafka 34
3.1 Kafka介绍 34
3.1.1 Kafka的基本架构 34
3.1.2 Kafka的作用 36
3.2 Kafka的重要特性 37
3.2.1 高吞吐 37
3.2.2 高可用 38
3.3 安装与配置 39
3.3.1 ZooKeeper的安装与配置 39
3.3.2 Kafka的安装与配置 40
3.4 实践操作 41
3.5 小结 44
3.6 课后习题 44
第4章 数据存储 45
4.1 HDFS 45
4.1.1 Hadoop介绍 45
4.1.2 HDFS介绍 46
4.1.3 安装与配置 51
4.1.4 实践操作 61
4.1.5 小结 66
4.1.6 课后习题 66
4.2 HBase 66
4.2.1 HBase介绍 66
4.2.2 技术对比 70
4.2.3 安装与配置 71
4.2.4 实践操作 73
4.2.5 小结 75
4.2.6 课后习题 76
4.3 Redis 76
4.3.1 Redis介绍 76
4.3.2 安装与配置 80
4.3.3 实践操作 82
4.3.4 小结 85
4.3.5 课后习题 85
第5章 图数据处理 86
5.1 Neo4j 86
5.1.1 Neo4j介绍 86
5.1.2 安装与配置 89
5.1.3 实践操作 90
5.1.4 小结 96
5.1.5 课后习题 97
5.2 Spark GraphX 97
5.2.1 图计算基础知识 97
5.2.2 Spark GraphX介绍 99
5.2.3 实践操作 101
5.2.4 小结 106
5.2.5 课后习题 106
第6章 离线计算 107
6.1 MapReduce 107
6.1.1 MapReduce介绍 108
6.1.2 安装与配置 110
6.1.3 实践操作 112
6.1.4 小结 133
6.1.5 课后习题 134
6.2 Spark 134
6.2.1 Spark介绍 134
6.2.2 RDD 138
6.2.3 安装与配置 143
6.2.4 实践操作 145
6.2.5 小结 151
6.2.6 课后习题 151
第7章 实时计算 152
7.1 Storm 152
7.1.1 流计算介绍 152
7.1.2 Storm介绍 153
7.1.3 实践操作 156
7.1.4 小结 164
7.1.5 课后习题 164
7.2 Spark Streaming 165
7.2.1 Spark Streaming介绍 165
7.2.2 DStream操作 168
7.2.3 实践操作 172
7.2.4 小结 174
7.2.5 课后习题 175
7.3 Flink 175
7.3.1 Flink介绍 175
7.3.2 技术对比 179
7.3.3 实践操作 180
7.3.4 小结 186
7.3.5 课后习题 186
第8章 OLAP数据分析 187
8.1 Pig 187
8.1.1 Pig介绍 187
8.1.2 Pig Latin语言介绍 189
8.1.3 Pig的安装与配置 191
8.1.4 实践操作 192
8.1.5 小结 195
8.1.6 课后习题 196
8.2 Hive 196
8.2.1 数据仓库介绍 196
8.2.2 Hive介绍 197
8.2.3 技术对比 201
8.2.4 安装与配置 202
8.2.5 实践操作 205
8.2.6 小结 211
8.2.7 课后习题 211
8.3 Spark SQL 211
8.3.1 Spark SQL介绍 211
8.3.2 实践操作 214
8.3.3 小结 218
8.3.4 课后习题 218
第9章 分布式资源管理 219
9.1 YARN介绍 219
9.1.1 YARN的基本架构 220
9.1.2 YARN组件功能 221
9.1.3 YARN的执行过程 223
9.2 实践操作 224
9.3 小结 230
9.4 课后习题 230
第 10章 大数据处理架构 231
10.1 Lambda架构介绍 231
10.1.1 Lambda的基本结构 231
10.1.2 优势与不足 232
10.2 Kappa架构介绍 233
10.2.1 Kappa的基本结构 233
10.2.2 优势与不足 234
10.3 架构对比 234
10.4 小结 235
10.5 课后习题 235
参考文献 236
- 人民邮电出版社有限公司 (微信公众号认证)
- 人民邮电出版社微店,为您提供最全面,最专业的一站式购书服务
- 扫描二维码,访问我们的微信店铺
- 随时随地的购物、客服咨询、查询订单和物流...