商品详情
本书遵循教指委相关指导文件和高等院校学生学习规律编写而成。践行四新理念,融入思政元素,注重理论与实践相结合。
本书首先介绍了大数据基础应用:重点讲解了如何搭建Hadoop分布式集群平台,使用Java语言进行MapReduce分布式编程;HBase及Hive数据库环境的安装和数据的增、删、改、查操作;Spark平台的搭建、RDD操作及Spark SQL查询;Flink平台的搭建,Kafka消息中间件的使用及流批一体计算。其次对数据预处理的常用方法及如何使用Matplotlib实现数据可视化进行了讨论。最后讲解了大数据与机器学习、深度学习。本书将机器学习算法划分为分类及回归两个问题进行了讨论,并结合scikit_learn进行了实例讲解。在深度学习部分,对深度神经网络及卷积神经网络进行了介绍,就如何使用Keras框架实现图像分类进行了实例讲解,此外介绍了循环神经网络LSTM的原理及应用。本书适用于计算机类及信息技术类相关专业在读本科生及研究生,也可供大数据及人工智能相关领域的技术人员参考。为了方便教学,本书配备电子课件、程序源代码等教学资源。凡选用本书作为教材的教师均可登录机械工业出版社教育服务网(www.cmpedu.com)注册后免费下载。
目 录前言第1章 Hadoop分布式集群 11.1 什么是大数据 11.1.1 大数据的基本概念 11.1.2 大数据的产生和应用 21.2 大数据关键技术 21.2.1 文件系统 21.2.2 数据库系统 31.2.3 索引与查询技术 41.2.4 大数据分析技术 51.2.5 大数据处理工具 61.2.6 机器学习与深度学习 71.3 Hadoop生态圈 81.4 Hadoop分布式集群环境搭建 111.4.1 实验环境安装及配置 111.4.2 Hadoop集群平台的搭建 161.4.3 MapReduce测试 21第2章 分布式计算框架MapReduce 232.1 MapReduce分布式框架 232.1.1 MapReduce原理 232.1.2 合并函数(Combiner) 262.2 WordCount的处理过程 272.2.1 WordCount示例代码运行 272.2.2 WordCount源码分析 282.2.3 WordCount详细处理过程 322.2.4 MapReduce新旧版区别 332.3 MapReduce编程示例 332.3.1 Eclipse开发环境搭建 332.3.2 数据去重 382.3.3 数据排序 412.3.4 平均成绩 432.3.5 单表关联 452.3.6 多表关联 512.3.7 倒排索引 54第3章 NoSQL数据库 603.1 NoSQL数据库概述 603.1.1 NoSQL数据库的特点 603.1.2 NoSQL数据库与关系数据库的比较 613.1.3 NoSQL数据库的分类 613.2 HBase列式数据库 623.2.1 HBase的基本概念 623.2.2 HBase的安装及基本操作 643.2.3 HBase客户端编程 693.3 Hive数据仓库工具 823.3.1 Hive的安装及环境配置 823.3.2 Hive的基本使用 86第4章 分布式计算框架Spark 934.1 Spark分布式计算引擎 934.1.1 Spark的基本概念 934.1.2 Spark的核心技术 954.1.3 Spark生态系统 964.1.4 Spark技术分析 964.1.5 Spark的应用场景 974.2 Spark分布式集群环境搭建 984.2.1 环境搭建 984.2.2 环境测试 1004.3 RDD分布式编程技术 1024.3.1 RDD的基本使用 1024.3.2 RDD操作 1044.3.3 共享变量 1154.4 Spark SQL查询分析技术 1184.4.1 DataSet(DataFrame)和RDD 1194.4.2 Spark SQL操作 1214.4.3 Spark SQL与数据源的交互 1254.4.4 Spark SQL与Hive交互 1264.4.5 Spark SQL的分区及分桶 127第5章 流式计算 1305.1 Flink的基本概念 1305.1.1 Flink框架 1305.1.2 Flink的应用 1315.2 Flink的安装和开发环境设置 1335.2.1 Flink本地安装 1335.2.2 Flink开发环境设置 1345.3 数据流接口 1375.3.1 DataStream概述 1375.3.2 数据流接口的基本应用 1445.3.3 Kafka消息中间件 1485.4 水位线和窗口 1615.4.1 水位线(WaterMark) 1615.4.2 窗口(Window) 1655.4.3 应用举例 1695.5 表接口和表查询 1755.5.1 动态表 1765.5.2 表接口和表查询的应用 179第6章 数据可视化分析与预处理 1846.1 数据可视化分析 1846.1.1 分位数与箱线图 1846.1.2 数据的相关性与散点图 1866.1.3 数据的分布与直方图 1896.1.4 Matplotlib绘图 1916.2 数据预处理 2036.2.1 连续型输入特征的处理(归一化) 2046.2.2 类别(离散)型输入特征的处理 2066.2.3 分类标签的处理 2096.2.4 主成因分析(PCA_Principal Component Analysis) 209第7章 大数据与机器学习 2147.1 使用scikit_learn进行机器学习 2147.1.1 scikit_learn简介 2147.1.2 使用scikit_learn进行机器学习 2157.2 分类问题 2187.2.1 逻辑回归 2197.2.2 混淆矩阵 2227.2.3 多分类 2247.2.4 不平衡分类 2267.2.5 交叉验证和参数寻优 2357.3 回归问题 2377.3.1 一元线性回归 2377.3.2 多元线性回归 246第8章 大数据与深度学习 2548.1 深度学习概述 2548.1.1 从神经网络到深度学习 2558.1.2 深度学习框架Keras 2628.2 深度神经网络 2638.2.1 深度神经网络示例 2638.2.2 模型的保存和读取 2668.2.3 模型训练的历史过程 2678.3 卷积神经网络 2688.3.1 卷积神经网络的层 2708.3.2 使用CNN进行图像分类 2788.3.3 使用VGG16网络模型 2858.4 循环神经网络 2878.4.1 RNN 2878.4.2 LSTM 289参考文献 296
【前言】前 言与云计算、大数据、移动互(物)联网、人工智能和区块链技术相关的新业态、新模式已经成为新的GDP增长点,信息产业已经成为名副其实的支柱产业。为满足新兴的业态和新经济发展模式对人才的需求,国家、社会和产业都对计算机专业技术人才培养提出了新的要求,要求面向新产业、新经济、新业态来建设新工科,先后实施了;卓越工程师计划和;新工科建设计划来保障这一战略目标的实现。2016年我国正式签署了《华盛顿协议》,成为该协议的第18个成员。这一系列举措,促使高校对传统的教学模式进行改革,按工程教育专业认证的理念组织课堂及实践教学,培养符合新经济模式下社会所需的计算机专业工程技术人才。工程教育专业认证的三大理念为;以学生为中心;产出导向(OBE);持续改进,三者相辅相成,形成一个封闭的循环体,不断地对教学过程和人才培养质量进行完善,提高专业的办学水平。建设新工科及按工程教育认证的要求进行教学,其核心目的是提升学生的能力,使学生能在工作中解决复杂工程问题。随着社会经济的发展,;互联网 向各行各业的渗透及改造,产业及社会对计算机类专业的人才需求的规格也越来越高。目前,计算机相关专业的教材大多还是针对学科领域中的一些经典问题进行讲解,偏重于知识传授和理论学习,对如何引导学生利用学到的知识去解决现实中的实际问题,则言之甚少,或者内容陈旧,已经跟不上时代的节奏。对于计算机类专业的学生,更重要的是要锻炼动手实践能力,学到本领,成为能在计算机及人工智能领域中从事应用系统的设计和开发、产品管理和运维等工作的高素质应用型工程技术人才及行业骨干,毕业后经过5年左右的工作锻炼,具备胜任工程师或者相应职称的专业技术能力。本书的主要特点如下:1)本书偏重工程实践,重点训练学生以多个虚拟机或者计算机搭建分布式集群环境,在分布式环境下进行数据的存储、计算、编程,切实提升学生的动手实践能力。2)学生在大数据、分布式计算、人工智能领域相关技术的学习过程中,对各种不同的数学概念、公式、算法、框架、模型往往无从下手,通过网络查阅的一些文献质量也往往良莠不齐。本书结合多年的教学实践过程对大数据、分布式计算、人工智能领域的知识进行了归纳,所有程序代码均经过严格的测试及教学过程检验,能很好地指导学生进行学习,从而使学生具备对实际问题展开分析研究,并提出合理解决方案的能力。3)按照大数据应用基础、大数据统计分析、大数据机器学习这个脉络,完整地介绍了大数据应用与实践的整个技术架构,并能引导学生进行后续的深入学习。武汉工程大学计算机科学与工程学院、人工智能学院副院长刘玮教授,张明博士参与了本书的部分章节编写,对本书的内容提出了许多中肯有益的修改意见,在此,对二位老师的辛勤付出表示感谢。2022级硕士研究生胡龙元、杨博韬、陈兰兰,2023级硕士研究生穆鑫程、季生雲、袁嘉净参与了本书的文字校对和代码的审阅工作,在此,也对他们表示感谢。书中的不妥和疏漏之处,望读者不吝指正。
刘黎志
- 新华一城书集 (微信公众号认证)
- 上海新华书店官方微信书店
- 扫描二维码,访问我们的微信店铺
- 随时随地的购物、客服咨询、查询订单和物流...