商品详情
书名: | 大数据分析技术与应用实践(面向新工科专业建设计算机系列教材) |
出版社: | 清华大学出版社 |
出版日期 | 2020 |
ISBN号: | 9787302547211 |
本书首先从大数据技术概述出发,给出大数据领域的技术概貌及相关应用场景,从而使读者对大数据概念有清晰的认识;其次,本书采取topdown模式,先从计算广告这一具有代表性的应用实践着手,阐明大数据技术是如何应用并发挥效用的;再次,依次介绍大数据采集与处理、大数据存储与查询、大数据计算与分析等关键技术;最后,将关键技术引申到两类重要的大数据应用技术: 一类是Spark和机器学习应用,另一类是数据可视化应用。以此构建了一个大数据分析技术的基本闭环。除了内容的闭环体系之外,本书的另一大特色是将项目实践拆解融入各项关键技术中,从而实现理论与实践的有机融合,满足“新工科”建设的首要需求。 本书可作为高等院校计算机类专业的大数据分析、应用方面的理论或实践课程的教材,也可供自学者及从事计算机应用、大数据开发等的工程技术人员参考。 |
王宇新,博士,大连理工大学计算机科学与技术学院副教授,主管教学副院长。承担多项国家级和省部级教育教学改革项目,主要目标是加强大数据、人工智能等新兴技术在传统计算机专业中的教学质量。 |
u 在数据时代,任何IT公司本质上都是数据公司,最核心的技能就是大数据技术,本书将带领你了解什么是大数据技术。 u 本书带领读者在Hadoop、MapReduce、Hive、Hbase、Spark这些耳熟能详的大数据名词中一探究竟,理解大数据分析与应用开发的核心理念。 u 本书以大数据中最炙手可热的互联网广告为实践应用,让大家充分领略到大数据技术的独特魅力。 u 本书有配套的教学课件、源代码、课程计划和教学大纲等资源,方便教学。 |
第1章大数据技术概述1 1.1大数据产品诞生1 1.2什么是大数据2 1.3大数据解决的问题场景4 1.4大数据与Google5 习题17 第2章计算广告介绍与课程应用实践8 2.1计算广告8 2.1.1互联网广告介绍8 2.1.2互联网广告效果评估9 2.1.3如何计算10 2.1.4计算广告系统11 2.2应用实践12 2.2.1应用实践数据12 2.2.2CTR预测13 2.2.3项目实践1: 了解应用实践数据14 2.2.4项目实践2: 实践环境搭建14 习题215 第3章大数据采集与处理16 3.1网络爬虫16 3.1.1网络爬虫介绍16 3.1.2构建一个网络爬虫的实践经验17 3.1.3HTTP介绍18 3.1.4网页解析与CSS选择器20 3.1.5项目实践3: 抓取网页并提取标题和正文21 3.2Apache Kafka253.2.1系统架构25 3.2.2消息、主题和Schema26 3.2.3分区26 3.2.4生产者与消费者27 3.2.5代理31 3.2.6Kafka关键特性32 3.2.7项目实践4: 通过Kafka进行数据处理34 3.2.8构建一个真实数据通道需要考虑的问题37 3.3ETL、Apache Flume和其他框架39 3.3.1ETL39 3.3.2Apache Flume41 3.3.3其他大数据采集处理框架42 习题345 〖3〗大数据分析技术与应用实践目录〖3〗第4章大数据存储与查询46 4.1HDFS46 4.1.1从设计一个分布式系统开始46 4.1.2HDFS的架构设计48 4.1.3NameNode和DataNode51 4.1.4文件系统的名字空间52 4.1.5数据块53 4.1.6数据复制53 4.1.7文件系统元数据的持久性55 4.1.8HDFS中的文件访问权限56 4.1.9稳健性56 4.1.10文件读取剖析57 4.1.11文件写入剖析59 4.1.12文件压缩60 4.1.13项目实践5: 应用HDFS存储实践数据61 4.2HBase64 4.2.1HBase的系统架构64 4.2.2HBase的数据模型65 4.2.3HBase数据写入与存储67 4.2.4预写日志68 4.2.5HBase过滤器68 4.2.6HBase的应用场景70 4.2.7HBase与传统关系数据库的区别71 4.2.8项目实践6: 使用HBase管理用户数据71 习题475 第5章大数据计算与分析76 5.1Hadoop & MapReduce76 5.1.1用MapReduce解决一个问题77 5.1.2MapReduce模型79 5.1.3Hadoop中的MapReduce80 5.1.4Hadoop Streaming81 5.1.5MapReduce作业运行机制89 5.1.6Hadoop Shuffle92 5.1.7项目实践7: 使用MapReduce构造特征98 5.2Hive106 5.2.1Hive架构106 5.2.2Hive的数据模型108 5.2.3Hive表109 5.2.4存储格式110 5.2.5项目实践8: 使用Hive管理实践数据112 5.3Tez113 5.3.1Tez数据引擎114 5.3.2DAG114 5.3.3Tez的其他优化116 5.4特征工程116 5.4.1特征工程概述116 5.4.2特征提取117 5.4.3特征预处理121 5.4.4特征选择123 5.4.5特征降维125 习题5126 第6章Spark和机器学习127 6.1Spark127 6.1.1Spark设计理念127 6.1.2Spark RDD128 6.1.3Spark应用架构128 6.1.4项目实践9: 开始使用Spark130 6.1.5DataFrame、Dataset、Schema133 6.1.6项目实践10: 使用Spark DataFrame了解数据133 6.1.7Spark SQL134 6.1.8结构化API执行过程141 6.1.9Spark RDD存储结构实现原理143 6.1.10Spark RDD 算子144 6.1.11Shuffle147 6.1.12RDD Persistence149 6.1.13Spark 失败重试151 6.1.14闭包——变量的范围和生命周期151 6.1.15项目实践11: 使用Spark处理实践数据154 6.2机器学习理论166 6.2.1回归分析166 6.2.2聚类分析169 6.2.3分类分析172 6.2.4机器学习测试177 6.3从图像分类上详解机器学习技术181 6.4Spark机器学习192 6.4.1Spark机器学习流程193 6.4.2Spark机器学习举例195 6.4.3Parameter Server的分布式计算方法196 6.4.4项目实践12: 使用Spark ML库进行CTR预测204 习题6206 第7章数据可视化207 7.1数据可视化简介207 7.1.1可视化的挑战与发展趋势208 7.1.2Python可视化工具210 7.2Matplotlib211 7.2.1Matplotlib简介211 7.2.2项目实践13: 使用Matplotlib对数据进行简单可视化211 7.3tSNE高维数据可视化216 7.3.1tSNE基本原理217 7.3.2tSNE推导过程217 7.3.3tSNE的实质218 7.3.4项目实践14: 用Matplotlib和tSNE可视化实验效果219 习题7221 |
- 清华大学出版社旗舰店 (微信公众号认证)
- 扫描二维码,访问我们的微信店铺
- 随时随地的购物、客服咨询、查询订单和物流...