清华大学出版社旗舰店店铺主页二维码
清华大学出版社旗舰店 微信认证
微信扫描二维码,访问我们的微信店铺
你可以使用微信联系我们,随时随地的购物、客服咨询、查询订单和物流...

大数据分析技术与应用实践(面向新工科专业建设计算机系列教材)

31.84
运费: ¥ 2.00-10.00
库存: 384 件
大数据分析技术与应用实践(面向新工科专业建设计算机系列教材) 商品图0
大数据分析技术与应用实践(面向新工科专业建设计算机系列教材) 商品缩略图0

商品详情

 书名: 大数据分析技术与应用实践(面向新工科专业建设计算机系列教材)
 出版社: 清华大学出版社
 出版日期 2020
 ISBN号: 9787302547211
本书首先从大数据技术概述出发,给出大数据领域的技术概貌及相关应用场景,从而使读者对大数据概念有清晰的认识;其次,本书采取topdown模式,先从计算广告这一具有代表性的应用实践着手,阐明大数据技术是如何应用并发挥效用的;再次,依次介绍大数据采集与处理、大数据存储与查询、大数据计算与分析等关键技术;最后,将关键技术引申到两类重要的大数据应用技术: 一类是Spark和机器学习应用,另一类是数据可视化应用。以此构建了一个大数据分析技术的基本闭环。除了内容的闭环体系之外,本书的另一大特色是将项目实践拆解融入各项关键技术中,从而实现理论与实践的有机融合,满足“新工科”建设的首要需求。
本书可作为高等院校计算机类专业的大数据分析、应用方面的理论或实践课程的教材,也可供自学者及从事计算机应用、大数据开发等的工程技术人员参考。

王宇新,博士,大连理工大学计算机科学与技术学院副教授,主管教学副院长。承担多项国家级和省部级教育教学改革项目,主要目标是加强大数据、人工智能等新兴技术在传统计算机专业中的教学质量。


u    在数据时代,任何IT公司本质上都是数据公司,最核心的技能就是大数据技术,本书将带领你了解什么是大数据技术。

u    本书带领读者在Hadoop、MapReduce、Hive、Hbase、Spark这些耳熟能详的大数据名词中一探究竟,理解大数据分析与应用开发的核心理念。

u    本书以大数据中最炙手可热的互联网广告为实践应用,让大家充分领略到大数据技术的独特魅力。

u    本书有配套的教学课件、源代码、课程计划和教学大纲等资源,方便教学。


第1章大数据技术概述1
1.1大数据产品诞生1
1.2什么是大数据2
1.3大数据解决的问题场景4
1.4大数据与Google5
习题17
第2章计算广告介绍与课程应用实践8
2.1计算广告8
2.1.1互联网广告介绍8
2.1.2互联网广告效果评估9
2.1.3如何计算10
2.1.4计算广告系统11
2.2应用实践12
2.2.1应用实践数据12
2.2.2CTR预测13
2.2.3项目实践1: 了解应用实践数据14
2.2.4项目实践2: 实践环境搭建14
习题215
第3章大数据采集与处理16
3.1网络爬虫16
3.1.1网络爬虫介绍16
3.1.2构建一个网络爬虫的实践经验17
3.1.3HTTP介绍18
3.1.4网页解析与CSS选择器20
3.1.5项目实践3: 抓取网页并提取标题和正文21
3.2Apache Kafka253.2.1系统架构25
3.2.2消息、主题和Schema26
3.2.3分区26
3.2.4生产者与消费者27
3.2.5代理31
3.2.6Kafka关键特性32
3.2.7项目实践4: 通过Kafka进行数据处理34
3.2.8构建一个真实数据通道需要考虑的问题37
3.3ETL、Apache Flume和其他框架39
3.3.1ETL39
3.3.2Apache Flume41
3.3.3其他大数据采集处理框架42
习题345
〖3〗大数据分析技术与应用实践目录〖3〗第4章大数据存储与查询46
4.1HDFS46
4.1.1从设计一个分布式系统开始46
4.1.2HDFS的架构设计48
4.1.3NameNode和DataNode51
4.1.4文件系统的名字空间52
4.1.5数据块53
4.1.6数据复制53
4.1.7文件系统元数据的持久性55
4.1.8HDFS中的文件访问权限56
4.1.9稳健性56
4.1.10文件读取剖析57
4.1.11文件写入剖析59
4.1.12文件压缩60
4.1.13项目实践5: 应用HDFS存储实践数据61
4.2HBase64
4.2.1HBase的系统架构64
4.2.2HBase的数据模型65
4.2.3HBase数据写入与存储67
4.2.4预写日志68
4.2.5HBase过滤器68
4.2.6HBase的应用场景70
4.2.7HBase与传统关系数据库的区别71
4.2.8项目实践6: 使用HBase管理用户数据71
习题475
第5章大数据计算与分析76
5.1Hadoop & MapReduce76
5.1.1用MapReduce解决一个问题77
5.1.2MapReduce模型79
5.1.3Hadoop中的MapReduce80
5.1.4Hadoop Streaming81
5.1.5MapReduce作业运行机制89
5.1.6Hadoop Shuffle92
5.1.7项目实践7: 使用MapReduce构造特征98
5.2Hive106
5.2.1Hive架构106
5.2.2Hive的数据模型108
5.2.3Hive表109
5.2.4存储格式110
5.2.5项目实践8: 使用Hive管理实践数据112
5.3Tez113
5.3.1Tez数据引擎114
5.3.2DAG114
5.3.3Tez的其他优化116
5.4特征工程116
5.4.1特征工程概述116
5.4.2特征提取117
5.4.3特征预处理121
5.4.4特征选择123
5.4.5特征降维125
习题5126
第6章Spark和机器学习127
6.1Spark127
6.1.1Spark设计理念127
6.1.2Spark RDD128
6.1.3Spark应用架构128
6.1.4项目实践9: 开始使用Spark130
6.1.5DataFrame、Dataset、Schema133
6.1.6项目实践10: 使用Spark DataFrame了解数据133
6.1.7Spark SQL134
6.1.8结构化API执行过程141
6.1.9Spark RDD存储结构实现原理143
6.1.10Spark RDD 算子144
6.1.11Shuffle147
6.1.12RDD Persistence149
6.1.13Spark 失败重试151
6.1.14闭包——变量的范围和生命周期151
6.1.15项目实践11: 使用Spark处理实践数据154
6.2机器学习理论166
6.2.1回归分析166
6.2.2聚类分析169
6.2.3分类分析172
6.2.4机器学习测试177
6.3从图像分类上详解机器学习技术181
6.4Spark机器学习192
6.4.1Spark机器学习流程193
6.4.2Spark机器学习举例195
6.4.3Parameter Server的分布式计算方法196
6.4.4项目实践12: 使用Spark ML库进行CTR预测204
习题6206
第7章数据可视化207
7.1数据可视化简介207
7.1.1可视化的挑战与发展趋势208
7.1.2Python可视化工具210
7.2Matplotlib211
7.2.1Matplotlib简介211
7.2.2项目实践13: 使用Matplotlib对数据进行简单可视化211
7.3tSNE高维数据可视化216
7.3.1tSNE基本原理217
7.3.2tSNE推导过程217
7.3.3tSNE的实质218
7.3.4项目实践14: 用Matplotlib和tSNE可视化实验效果219
习题7221


清华大学出版社旗舰店店铺主页二维码
清华大学出版社旗舰店 微信公众号认证
扫描二维码,访问我们的微信店铺
随时随地的购物、客服咨询、查询订单和物流...

大数据分析技术与应用实践(面向新工科专业建设计算机系列教材)

手机启动微信
扫一扫购买

收藏到微信 or 发给朋友

1. 打开微信,扫一扫左侧二维码

2. 点击右上角图标

点击右上角分享图标

3. 发送给朋友、分享到朋友圈、收藏

发送给朋友、分享到朋友圈、收藏

微信支付

支付宝

扫一扫购买

打开微信,扫一扫

或搜索微信号:qhdxcbs
清华大学出版社官方微信公众号

收藏到微信 or 发给朋友

1. 打开微信,扫一扫左侧二维码

2. 点击右上角图标

点击右上角分享图标

3. 发送给朋友、分享到朋友圈、收藏

发送给朋友、分享到朋友圈、收藏