数据科学概论（数据科学与大数据技术丛书）

￥54.40

运费：	¥ 7.00-20.00
库存：	0 件

商品已售罄

支付：: 微信支付银行卡支付宝

商品详情

252926/68

数据科学是一门正在兴起的学科，国内外各个大学开始开设数据科学课程或类似课程，并且编写配套教材。我们的教材在内容上按照四大模块进行组织，分别是数据科学基础、数据以及数据上的计算(分析)、数据处理基础设施/平台和工具、以及大数据的案例和实践。我们认为这样的组织，使得内容体系相对完整。

覃雄派（1971‒），男，博士，中国人民大学信息学院讲师、硕士生导师，目前主要从事高性能数据库、大数据分析、信息检索等方面的研究工作，主持1项国家自然科学基金面上项目，参与多项国家“863”计划、“973”计划及国家自然科学基金项目，在国内外期刊和会议上发表论文20余篇。

陈跃国（1978‒），男，博士，中国人民大学信息学院副教授、博士生导师，中国计算机学会高级会员，数据库专家委员会委员，大数据专家委员会通信委员，Frontiers of Computer Science青年编委，主要研究方向为大数据分析系统和语义搜索。主持国家自然科学基金项目2项，广东省科技应用重大专项1项，参与多项国家核高基（核心电子器件、高端通用芯片及基础软件产品）、“973”计划、“863”计划项目，近年来在SIGMOD、SIGIR、ICDE、AAAI、IEEE TKDE、WWW等国际重要期刊和会议上发表论文30余篇

杜小勇（1963‒），男，博士，中国人民大学信息学院教授，博士生导师，教育部数据工程与知识工程重点实验室主任，中国计算机学会会士，《大数据》期刊编委会副主任。主要研究方向为智能信息检索、高性能数据库、知识工程。主持和参与多项国家核高基（核心电子器件、高端通用芯片及基础软件产品）、“973”计划、“863”计划、国家自然科学基金项目，近年来在SIGMOD、VLDB、AAAI、IEEE TKDE等国际重要期刊和会议上发表论文百余篇。

第1章数据科学概论
1.1数据科学的定义
1.2数据科学的定位
1.3数据科学家
1.4数据科学的基本原则
1.5数据处理流程：时间维度的纵向视角
1.6数据处理系统的架构：系统维度的计算视角
1.7数据的多样性：数据类型维度的横向视角
1.8数据价值的挖掘：价值维度的价值提升视角
1.9思考题

第2章OLTP与数据服务
2.1面向OLTP应用的RDBMS数据库技术
2.2面向数据服务的NoSQL数据库技术
2.3 NewSQL数据库技术
2.4思考题

第3章OLAP与结构化数据分析
3.1联机分析处理（OLAP）与结构化数据分析
3.2高性能OLAP系统的关键技术
3.3结构化数据分析工具介绍
3.4思考题

第4章数据清洗与数据集成
4.1数据抽取、转换与装载
4.2数据清洗
4.3数据集成
4.4思考题

第5章数据的深度分析（数据挖掘、机器学习）
5.1机器学习与数据挖掘简介
5.2主流机器学习与数据挖掘方法
5.3主流数据深度分析工具
5.4思考题

第6章流数据处理
6.1流数据处理应用
6.2流式处理和批处理的区别
6.3流数据模型
6.4流数据上的查询实例
6.5流数据处理系统的查询处理
6.6查询处理的基础算法
6.7流数据处理系统
6.8思考题

第7章文本分析
7.1文本分析的意义
7.2文本分析的任务和方法
7.3文本分析可视化
7.4文本分析软件和工具
7.5思考题

第8章社交网络分析
8.1简介
8.2社交网络分析的应用
8.3社交网络分析方法
8.4软件
8.5思考题

第9章语义网与知识图谱
9.1语义网的基本概念
9.2语义网体系结构
9.3语义网的关键技术
9.4知识库与知识图谱
9.5思考题
第10章数据可视化、可视分析与探索式数据分析
10.1什么是可视化
10.2可视化的强大威力
10.3可视化的一般过程
10.4科学可视化与信息可视化
10.5数据可视化的原则
10.6可视化实例
10.7可视化的挑战和趋势
10.8可视分析技术
10.9探索式数据分析
10.10探索式数据分析的作用
10.11探索式数据分析的基本方法
10.12可视化工具介绍
10.13思考题

第11章云计算平台
11.1云计算的概念与特点
11.2云计算与大数据处理的关系
11.3云计算类型与典型系统
11.4虚拟化技术与数据中心
11.5主流产品与特点
11.6 Openstack开源虚拟化平台
11.7主流厂商的云计算产品和服务
11.8思考题

第12章Hadoop及其生态系统
12.1Hadoop简介
12.2Hadoop分布式文件系统
12.3MapReduce工作原理
12.4Hadoop生态系统
12.5Hadoop 2.0版（YARN）
12.6Hadoop 2.0上的交互式查询引擎Hive on Tez
12.7Hadoop平台上的列存储技术
12.7.4Parquet文件格式
12.8思考题

第13章Spark及其生态系统
13.1简介
13.2 Hadoop的局限和Spark的诞生
13.3Spark特性总结
13.4Spark生态系统
13.5RDD及其处理
13.6SparkSQL应用程序
13.7Spark应用案例
13.8总结
13.9思考题

第14章Python与数据科学
14.1Python概述
14.2Python开发环境配置（Setup）
14.3通过一系列实例学习Python
14.4第三方库和实例
14.5思考题

第15章评测基准
15.1评测基准概述
15.2功能性评测基准Daytona 100TB Gray Sort
15.3面向OLTP应用的评测基准
15.4面向OLAP应用的评测基准
15.5面向大数据应用的评测基准
15.6思考题

第16章数据科学案例
16.1Google流感趋势预测（Google Flu Trends）
16.2Target利用数据分析预测到一个高中女生的怀孕
16.3互联网舆情监控与管理
16.4投资与信用
16.5IBM Watson计算机与医疗
16.6奥巴马竞选团队利用大数据
16.7数据科学与科学研究
16.8奥斯卡大奖预测、总统选举预测、世界杯预测
16.9用户画像与精准广告
16.10自动短文评分
16.11数据产品
16.12其他数据科学案例
16.13思考题

第17章数据科学实践
17.1概述
17.2工具和平台介绍
17.3基于规则的交易策略
17.4基于机器学习的交易策略
17.5关于若干专题的讨论
17.6思考题

第18章附录
18.1参考文献
18.2专有名词