大数据处理技术基础与应用（Hadoop+Spark)

￥52.40

运费：	¥ 0.00-20.00

立即购买

支付：: 微信支付银行卡支付宝

商品详情

书名：大数据处理技术基础与应用:Hadoop+Spark
定价：69.8
ISBN：9787115637680
作者：许桂秋孙海民胡贵恒
版次：第1版
出版时间：2024-02

内容提要：
本书是一本介绍大数据处理技术的专业图书，力求提高读者对大数据处理的认知水平和动手能力。本书*介绍大数据技术的相关概念和发展历程，从实践的角度介绍 Hadoop 和 Spark 的安装部署、编程基础和使用方法；然后结合具体案例，重点介绍 Spark RDD、 Spark SQL、 Spark Streaming、 Spark GraphFrame 等的应用思路和方法，并通过具体代码，让读者更好地感受大数据处理技术的效果。本书既可以作为高等院校计算机、大数据等相关专业的教材，也可以作为大数据技术相关从业人员的参考书，还可作为*基础人员学习 Hadoop 和 Spark 技术的入门图书。

作者简介：
许桂秋，北京中科特瑞科技有限公司运营总监，主要研究方向为大数据、人工智能技术，已出版《大数据导论》《Python编程基础与应用》《NoSQL数据库原理与应用》《数据挖掘与机器学习》等图书。

目录：
第 1章大数据技术概述 1
1.1 大数据技术简介 1
1.1.1 大数据的发展 1
1.1.2 大数据的流程 4
1.2 大数据的主流软件 5
1.2.1 Hadoop 5
1.2.2 Spark 8
1.2.3 Flink 10
1.2.4 Hadoop与Spark对比 11
1.3 大数据的主流编程语言 12
1.3.1 Python语言 12
1.3.2 Java语言 13
1.3.3 Scala语言 13
1.4 本章小结 13
第 2章 Hadoop部署安装与使用 14
2.1 Linux基本操作 14
2.1.1 Linux简介 14
2.1.2 新建与删除用户 15
2.1.3 目录权限的查看与修改 16
2.1.4 Linux的常用命令 18
2.1.5 任务实现 21
2.2 搭建Hadoop完全分布式集群 21
2.2.1 关闭防火墙 21
2.2.2 安装SSH 22
2.2.3 安装Xshell及Xftp（可选） 22
2.2.4 安装Java 24
2.2.5 安装Hadoop 25
2.2.6 克隆主机 27
2.2.7 安装完全分布式模式 29
2.3 查看Hadoop集群的基本信息 37
2.3.1 查询存储系统信息 37
2.3.2 查询计算资源信息 38
2.4 本章小结 39
第3章 HDFS基本操作 40
3.1 Hadoop Shell命令操作HDFS 40
3.1.1 HDFS简介 40
3.1.2 HDFS Shell命令简介 45
3.1.3 目录操作 47
3.1.4 文件操作 47
3.1.5 利用Web界面管理HDFS 50
3.1.6 任务实现 52
3.2 Java操作HDFS 52
3.2.1 在Eclipse中创建HDFS交互Java项目 53
3.2.2 在Java项目中编写Java应用程序 57
3.2.3 编译运行应用程序与打包文件 59
3.2.4 任务实现 63
3.2.5 文件常用操作的参考代码 65
3.3 本章小结 71
第4章 MapReduce基本原理与编程实现 72
4.1 MapReduce基本原理 72
4.1.1 MapReduce简介 72
4.1.2 MapReduce编程核心思想 73
4.1.3 MapReduce编程规范 74
4.1.4 MapReduce的输入格式 75
4.1.5 MapReduce的输出格式 77
4.1.6 分区 77
4.1.7 合并 78
4.2 编程实现——按访问次数排序 79
4.2.1 编程思路与处理逻辑 79
4.2.2 核心模块代码 81
4.2.3 任务实现 83
4.3 本章小结 86
第5章 Hive部署与编程基础 87
5.1 搭建伪分布式Hive 87
5.1.1 Hive概述 87
5.1.2 Hive安装和配置 89
5.2 Hive基本操作 91
5.2.1 数据库基本操作 92
5.2.2 数据表基本操作 93
5.2.3 数据基本操作 95
5.3 编程实现——部门工资统计 96
5.4 本章小结 98
第6章 Spark部署与编程基础 99
6.1 Spark的运行原理 99
6.1.1 集群架构 99
6.1.2 运行流程 100
6.1.3 核心数据集RDD 101
6.1.4 核心原理 101
6.2 Scala安装与使用 102
6.2.1 Scala 语言概述 102
6.2.2 Scala特性 102
6.2.3 环境设置与安装 103
6.3 Spark安装与使用 105
6.3.1 环境搭建前的准备 105
6.3.2 Spark的安装与配置 106
6.3.3 在PySpark中运行代码 109
6.3.4 编程实现——Spark独立应用程序 111
6.4 本章小结 112
第7章 Spark RDD：弹性分布式数据集 113
7.1 RDD概述 113
7.2 RDD编程 114
7.2.1 RDD编程基础 114
7.2.2 键值对RDD 136
7.2.3 数据读/写操作 141
7.3 编程实现 145
7.3.1 任务1：取出排名前五的订单支付金额 145
7.3.2 任务2：文件排序 149
7.3.3 任务3：二次排序 153
7.4 本章小结 158
第8章 Spark SQL：结构化数据文件处理 159
8.1 Spark SQL概述 159
8.1.1 Spark SQL简介 159
8.1.2 Spark SQL CLI配置 160
8.1.3 Spark SQL与Shell交互 161
8.2 DataFrame基础操作 161
8.2.1 创建DataFrame对象 162
8.2.2 DataFrame查看数据 168
8.2.3 DataFrame查询操作 171
8.2.4 DataFrame输出操作 176
8.3 Spark SQL与MySQL的交互 177
8.4 本章小结 180
第9章 Spark Streaming：实时计算框架 181
9.1 Spark Streaming概述 181
9.1.1 Spark Streaming应用场景 181
9.1.2 流计算概述 181
9.1.3 Spark Streaming特性分析 184
9.2 DStream编程模型基础 187
9.2.1 DStream概述 187
9.2.2 基本输入源 188
9.2.3 转换操作 196
9.2.4 输出操作 201
9.3 编程实现——流数据过滤与分析 206
9.4 本章小结 210
第 10章 Spark GraphFrames：图计算 211
10.1 图计算概述 211
10.1.1 图的基本概念 211
10.1.2 图计算的应用 212
10.1.3 GraphFrames简介 213
10.2 GraphFrames编程模型基础 213
10.2.1 创建实例化图 213
10.2.2 视图和图操作 214
10.2.3 保存和加载图 216
10.3 编程实现——基于GraphFrames的网页排名 216
10.3.1 准备数据集 217
10.3.2 GraphFrames实现算法 218
10.3.3 使用PageRank进行网页排名 220
10.4 本章小结 220
第 11章大数据生态常用工具介绍 221
11.1 Flume的安装与使用 221
11.1.1 安装及配置Flume 221
11.1.2 实例分析 223
11.2 Kafka的安装与使用 225
11.2.1 Kafka相关概念 225
11.2.2 安装Kafka 225
11.2.3 实例分析 225
11.3 Sqoop的安装与使用 226
11.3.1 安装及配置Sqoop 227
11.3.2 添加MySQL驱动程序 229
11.3.3 测试Sqoop与MySQL的连接 229
11.4 编程实现——编写Spark程序使用Kafka数据源 230
11.4.1 Kafka准备工作 230
11.4.2 Spark准备工作 231
11.4.3 编写代码 233
11.5 本章小结 237