商品详情
理论结合实践,注重动手能力培养任务驱动讲解,有效激发学习兴趣典型项目案例,扎实培养专业素质教学做一体化,极大提高教学效率
《HDFS MapReduce分布式存储与计算实战》按照高等院校计算机专业课程基本要求,注重理论和实践相结合,采用先实践再总结的方式,突出计算机课程的实践性特点。本书共包括9个单元:大数据概述,大数据Linux知识,Hadoop伪分布式安装及其部署,HDFS原理详解,MapReduce计算框架详解,搭建Hadoop完全分布式环境,资源调度框架(YARN)与运用,Hive初识,项目实战。本书内容安排合理,结构清晰,通俗易懂,实例丰富,可作为各类高等院校、培训机构的教材,也可供大数据程序开发人员学习和参考。
单元一 大数据概述 11.1????大数据基本概念 21.1.1 大数据与生活 21.1.2 大数据的特征 41.1.3 大数据的发展史 41.1.4 云计算、大数据和人工智能 51.1.5 大数据平台Hadoop 91.2 学习Hadoop的环境准备工作 12单元小结 24单元自测 24单元二 大数据Linux知识 272.1 Linux目录结构 282.2 Linux运行级别 292.3 Linux常用命令 302.3.1 帮助命令 302.3.2 显示当前目录绝对路径命令 322.3.3 列出目录命令 322.3.4 切换目录命令 332.3.5 创建目录命令 332.3.6 删除文件或目录命令 342.3.7 创建空文件 342.3.8 复制命令 352.3.9 移动/重命名命令 362.3.10 查看内容命令 362.3.11 分屏显示文件内容命令 372.3.12 输出重定向命令 372.3.13 输出内容到控制台命令 382.3.14 软链接命令 382.3.15 查看历史执行命令 392.3.16 显示当前时间命令 402.3.17 查看日历命令 402.3.18 tar文件解压命令 412.3.19 在指定的目录下查找命令412.3.20 全局查找命令 422.3.21 在文本中查找命令 422.4 Linux用户管理 432.4.1 添加用户命令 432.4.2 创建用户组命令 442.4.3 添加用户并指定所属组命令 442.4.4 修改用户所属组命令 442.4.5 删除用户命令 452.4.6 删除用户组命令 452.4.7 设置用户密码命令 452.4.8 查看用户信息命令 452.4.9 切换用户命令 462.4.10 查看登录用户信息命令 462.4.11 用户、用户组的相关文件 472.5 Linux组和权限管理 482.5.1 Linux中的权限 482.5.2 修改文件/目录的所有者命令 492.5.3 修改文件/目录的所属组命令 502.5.4 修改文件所有者和所属组命令 512.5.5 修改权限命令 522.6 Linux磁盘管理 532.6.1 查看系统整体磁盘情况命令 532.6.2 查看指定目录的磁盘占用情况命令 542.7 Linux网络 542.7.1 修改IP地址 552.7.2 修改主机名 552.8 Linux进程管理 562.8.1 显示系统执行的进程命令 562.8.2 显示子父进程的关系命令 572.8.3 终止进程命令 572.9 Linux服务管理 572.10 Linux RPM和YUM 592.10.1 RPM相关命令 592.10.2 YUM相关命令 602.11 Linux vim编辑器 612.11.1 vim的普通模式 612.11.2 vim的编辑模式 622.11.3 vim的命令模式 62单元小结 63单元自测 63单元三 Hadoop伪分布式安装及其部署 673.1 前期知识准备 683.2 Linux环境配置 703.2.1 修改主机名和计算机名 703.2.2 配置静态IP地址 713.2.3 配置SSH无密码连接 743.2.4 远程连接配置 773.3 JDK配置 783.3.1 卸载Open JDK 783.3.2 下载Oracle JDK 793.3.3 安装Oracle JDK(root用户权限执行) 803.4 安装与部署Hadoop 813.4.1 安装CDH 823.4.2 修改hadoop_env.sh 833.4.3 修改core_site.xml 833.4.4 修改hdfs_site.xml 833.4.5 修改slaves文件 843.4.6 追加HADOOP_HOME到环境变量中 843.4.7 格式化HDFS 853.4.8 启动Hadoop并验证安装 853.4.9 安装验证 86单元小结 87单元自测 87单元四 HDFS原理详解 894.1 HDFS概述以及设计目标 904.1.1 HDFS概述 904.1.2 HDFS设计理念 914.1.3 HDFS目标 924.1.4 HDFS缺点 934.2 HDFS架构 934.3 HDFS副本机制 974.3.1 数据复制 974.3.2 副本存放机制 984.4 HDFS读取文件和写入文件 994.4.1 通过HDFS读取文件 994.4.2 通过HDFS写入文件 1004.5 HDFS的基本文件操作 1054.5.1 _help [cmd] 1054.5.2 _mkdir lt;pathgt; 1064.5.3 _ls(r) lt;pathgt; 1064.5.4 _put lt;localsrcgt; lt;dstgt; 1064.5.5 _du(s) lt;pathgt; 1084.5.6 _count[_q] lt;pathgt; 1094.5.7 _mv lt;srcgt; lt;dstgt; 1094.5.8 _cp lt;srcgt; lt;dstgt; 1094.5.9 _rm(r) 1104.5.10 _moveFromLocallt;localsrcgt;lt;destgt;/_moveToLocallt;destgt; lt;localscrgt; 1104.5.11 _get [_ignorecrc] lt;srcgt; lt;localdstgt; 1104.5.12 _cat lt;srcgt; 111单元小结 111单元自测 112单元五 MapReduce计算框架详解 1155.1 认识MapReduce 1165.1.1 什么是MapReduce 1165.1.2 MapReduce的特点 1165.2 MapReduce编程思想 1175.3 MapReduce执行流程 1195.3.1 MapReduce流程分解 1195.3.2 MapReduce详解 1205.4 Java版中wordcount功能的实现 1215.5 Combiner应用程序开发 1285.5.1 MapReduce中Combiner的作用 1285.5.2 Combiner的原理 1285.5.3 代码实现 1305.6 Partitioner应用程序开发 1315.6.1 MapReduce中Partitioner的作用 1315.6.2 代码实现 131单元小结 134单元自测 135单元六 搭建Hadoop完全分布式环境 1376.1 Hadoop的集群规划 1386.2 前置安装 1416.3 安装JDK 1426.4 Hadoop集群的部署 1436.5 作业提交到Hadoop集群上运行 145单元小结 146单元自测 146单元七 资源调度框架(YARN)与运用 1497.1 YARN产生的背景 1507.2 YARN架构 1527.3 YARN的执行流程 1547.4 YARN的环境搭建 1557.5 提交作业到YARN上执行 157单元小结 158单元自测 158单元八 Hive初识 1618.1 认识Hive 1628.2 Hive的安装和配置 1638.2.1 安装MySQL 1638.2.2 安装Hive 1688.2.3 验证安装 1708.3 Hive操作快速入门 171单元小结 173单元自测 173单元九 电商用户行为分析项目实战 1759.1 背景知识 1769.2 项目基本介绍 1799.2.1 用户日志分析 1799.2.2 常用的电商术语 1809.2.3 用户行为日志的意义 1819.3 项目需求分析 1829.3.1 需求分析 1829.3.2 数据处理流程 1839.4 实现项目功能 1849.4.1 各省份浏览量统计功能实现 1849.4.2 页面浏览统计功能实现 1889.4.3 ETL的介绍和实现 1929.4.4 功能升级 1959.4.5 打包上传服务器运行 2029.5 项目功能优化 206
【前言】Hadoop是一个由Apache基金会开发的分布式系统基础架构。利用Hadoop,用户可以在不了解分布式底层细节的情况下,开发分布式程序;充分利用集群的威力进行高速运算和存储。Hadoop实现了分布式文件系统,其中一个组件是HDFS。HDFS有高容错性的特点,可部署在低廉的硬件上,提供高吞吐量来访问应用程序的数据,适合用在有着超大数据集的应用程序中。Hadoop框架最核心的设计就是HDFS和MapReduce,HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。《HDFS MapReduce分布式存储与计算实战》是;工信部国家级计算机人才评定体系中的一本专业教材。;工信部国家级计算机人才评定体系由武汉厚溥数字科技有限公司开发,是以培养符合企业需求的软件工程师为目标的IT职业教育体系。在开发该体系之前,我们对IT行业的岗位序列做了充分的调研,包括研究从业人员在技术方向、项目经验和职业素养等方面的需求,通过对所面向学生的特点、行业需求的现状以及项目实施等方面的详细分析,结合我公司对软件人才培养模式的认知,按照软件专业总体定位要求,进行软件专业产品课程体系设计。该体系集应用软件知识和多领域的实践项目于一体,着重培养学生的熟练度、规范性、集成和项目实施能力,从而达到预定的培养目标。《HDFS MapReduce分布式存储与计算实战》共包括9个单元:大数据概述,大数据Linux知识,Hadoop伪分布式安装及其部署,HDFS原理详解,MapReduce计算框架详解,搭建Hadoop完全分布式环境,资源调度框架(YARN)与运用,Hive初识,项目实战。我们对本书的编写体系做了精心的设计,按照;理论学习知识总结上机操作课后习题这一思路进行编排。;理论学习部分描述通过案例要达到的学习目标与涉及的相关知识点,使学习目标更加明确;;知识总结部分概括案例所涉及的知识点,使知识点得以完整系统地呈现;;上机操作部分对案例进行了详尽分析,通过完整的步骤帮助读者快速掌握该案例的操作方法;;课后习题部分帮助读者理解章节的知识点。本书在内容编写方面,力求细致全面;在文字叙述方面,注意言简意赅、重点突出;在案例选取方面,强调案例的针对性和实用性。本书凝聚了编者多年来的教学经验和成果,可作为各类高等院校、培训机构的教材,也可供广大程序设计人员学习和参考。
《HDFS MapReduce分布式存储与计算实战》由武汉厚溥数字科技有限公司编著,由王伟、寇立红、熊勇、余剑、王鹏、胡富文、杜同海等多名企业实战项目经理编写。本书编者长期从事项目开发和教学实施,并且对当前高校的教学情况非常熟悉,在编写过程中充分考虑不同学生的特点和需求,加强了项目实战方面的教学。在本书的编写过程中,得到了武汉厚溥数字科技有限公司各级领导的大力支持,在此对他们表示衷心的感谢。参与本书编写的人员还有:宣化科技职业学院张兵,湖北国土资源职业学院管胜波,铜川职业技术学院张华、田宇,陕西国际商贸学院孙玮,江西机电职业技术学院吴赵盼,湖北科技职业学院田野、王智超,闽西职业技术学院陈坤定等。限于编写时间和编者的水平,书中难免存在不足之处,希望广大读者批评指正。服务邮箱:476371891@qq.com。
编 者 2022年11月
- 新华一城书集 (微信公众号认证)
- 上海新华书店官方微信书店
- 扫描二维码,访问我们的微信店铺
- 随时随地的购物、客服咨询、查询订单和物流...