数据科学概论（第2版）（普通高等学校应用型教材·数据科学）

￥53.80

运费：	¥ 5.00-20.00

立即购买

支付：: 微信支付银行卡支付宝

商品详情

数据科学概论（第2版）（普通高等学校应用型教材·数据科学）

作者：覃雄派陈跃国杜小勇

书号：299082

定价：￥69 元

字数：669 千字

印次：2-1

开本：

出版时间：2021-10-29

ISBN：978-7-300-29908-2

包装：

内容简介

本书对数据科学的核心问题，即对数据进行分析、挖掘并提取其价值，获得对事物的深刻理解的各种技术手段，进行全面论述，把读者引进数据科学的大门，帮助读者建立数据科学的知识体系。书中使用大量通俗易懂的案例，配合技术原理的讲解，力图体现学科交叉的特点，让不同学科背景的读者，感受到数据科学的魅力，数据分析技术是如此有趣和有价值，能够解决各行各业的实际问题；使学习过程充满趣味，而不是枯燥无味。

作者介绍

覃雄派，中国人民大学信息学院副教授，硕士研究生导师。主要研究方向为高性能数据库、大数据分析和信息检索。在国内外高水平期刊和会议上发表论文40余篇。

陈跃国，教授，博士生导师，数据工程与知识工程教育部重点实验室副主任，中国计算机学会数据库专业委员会秘书长。主要从事大数据交互式可视分析、大数据评测基准、语义搜索、知识图谱等方面的研究工作。在国内外高水平学术期刊和学术会议上发表论文60余篇。

杜小勇，教授，博士生导师，中国人民大学理工处处长，教育部数据工程与知识工程重点实验室主任。主要从事数据库、信息检索等方面的研究工作。在国内外高水平学术期刊和学术会议上发表论文200余篇。

第1章数据科学概述

1.1数据科学的定义

1.2数据科学的定位

1.3数据科学家

1.4表示模型：对自然和社会现象进行数字化

1.5数据科学的基本原则

1.6数据处理流程：时间维度的纵向视角

1.7数据处理系统的架构：系统维度的计算视角

1.8数据的多样性：数据类型维度的横向视角

1.9数据价值的挖掘：价值维度的价值提升视角

第2章OLTP与数据服务

2.1面向OLTP应用的关系数据库技术

2.2面向数据服务的NoSQL数据库技术

2.3NewSQL数据库技术

第3章OLAP与结构化数据分析

3.1联机分析处理与结构化数据分析

3.2高性能OLAP系统的关键技术

3.3结构化数据分析工具介绍

第4章数据清洗与数据集成

4.1数据抽取、转换和装载

4.2数据清洗

4.3数据集成

第5章数据的深度分析（上）

5.1机器学习与数据挖掘简介

5.2决策树

5.3支持向量机

5.4KNN算法（分类）

5.5朴素贝叶斯算法（分类）

5.6在二值分类器上构建多类别分类器

5.7聚类算法

5.8EM算法（软聚类）

5.9线性回归、Logistic回归

5.10AdaBoost算法与集成学习

5.11关联规则分析

5.12协同过滤推荐算法

5.13隐马尔可夫模型

第6章数据的深度分析（下）

6.1神经网络与深度学习（分类/回归）

6.2数据预处理

6.3数据降维

6.4特征选择

6.5机器学习算法的评价指标、评价以及参数优化

6.6方差与偏差

6.7从复杂模型到简单模型以及正则化

6.8主流数据深度分析工具

第7章文本分析

7.1文本分析的意义

7.2文本分析的任务和方法

7.3文本分析可视化

7.4文本分析软件和工具

第8章社交网络分析

8.1简介

8.2社交网络分析的应用

8.3社交网络分析方法

8.4软件

第9章语义网与知识图谱

9.1语义网的基本概念

9.2语义网体系结构

9.3语义网的关键技术

9.4知识库与知识图谱

第10章数据可视化、可视分析与探索式数据分析

10.1什么是数据可视化

10.2可视化的强大威力

10.3可视化的一般过程

10.4科学可视化与信息可视化

10.5数据可视化的原则

10.6可视化实例

10.7可视化的挑战和趋势

10.8可视分析技术

10.9探索式数据分析

10.10探索式数据分析的作用

10.11探索式数据分析的基本方法

10.12可视化工具介绍

第11章数据科学案例

11.1谷歌流感趋势预测

11.2塔吉特的数据分析预测案例

11.3互联网舆情监控与管理

11.4投资与信用

11.5IBM沃森计算机与医疗

11.6大数据分析技术助力奥巴马的竞选团队取得成功

11.7数据科学与科学研究

11.8多领域预测

11.9用户画像与精准广告

11.10自动短文评分

11.11数据产品

11.12其他数据科学案例

精彩样章

《数据科学概论》第1版出版已经两年有余，作者收到了来自老师和同学们的大量反馈，对教材进行了修订和补充。第2版的改进简单说明如下。

对第1版进行修正

针对老师和同学们反馈的一些问题，我们进行了修正，使本书的正确性跃上新台阶。我们在准备第1版的时候付出了很大努力以保证质量。

针对老师和同学们反馈的不太容易阅读的部分，我们进行了改写，使本书阅读起来更加顺畅，可读性有所提高。

增加内容

第2版中增补了两章内容：时间序列分析（在线）和轨迹数据分析（在线）。除此之外，我们对相关章节进行了增补，目的是对一些细节进行解释，使读者更易于掌握相关知识。

在编写本书的过程中，我们参考了大量文献，包括论文、期刊、书籍以及网上资源。我们把这些参考文献按照各章进行汇总整理。为了控制本书的篇幅，我们把若干章节和参考文献分别单独制作成PDF文件，放在本书的附加在线资源中（网址是https: blogcsdnnet/xiongpai1971/article/details/89364018）。本书的在线资源还提供了重点、难点的解析，以及对一些技术细节的进一步说明，帮助读者更好地掌握相关内容。

内容体系和学习路线图

新增“内容体系”部分帮助读者对数据科学应该是什么样的形成完整的认识。

本书的内容相当丰富，在实际教学中，使用本书的老师和同学需要一个有重点的学习路线图，以及本书内容是如何支撑这个学习路线图的指引。因此，我们增设了“学习路线图”（在线版本请访问https： blogcsdnnet/xiongpai1971/article/details/89364071，https： datascienceneocitiesorg/，http： xiongpaigiteeio/datascience/）。

希望对本书的内容体系和学习路线图的描述，能够使读者做到胸中有格局，脚下有路线。

教材的风格和配套资源建设

关于教育，爱因斯坦说：“我反对把学校看作直接传授专门知识和在以后的生活中直接用到的技能的那种观点。……学校始终应当把发展独立思考和独立判断的一般能力放在首位，而不应当把取得专门知识放在首位……”教材作为承载教学内容的载体，应该体现这样的教育追求。

本书没有写成傻瓜式的编程攻略，或者软件使用说明书，而是侧重于原理的解释，引导读者了解基本原理，引发独立的思考和独立的判断。配套资源包括PPT和代码等，放在本书的在线资源中（网址为https: blogcsdnnet/xiongpai1971/article/details/89364071）。读者可以自行下载，在具体的教学/学习中运用。

教材以原理讲解为根本，以数学建模和推导为辅助；在线资源则帮助读者做到代码落地，实现加强动手操作的目的。本书的在线资源提供了大量可运行的Python代码，读者可以下载和运行这些代码，加深对技术原理的理解。学习编程，一种行之有效的办法是“照葫芦画瓢”。在理解这些代码的基础上，读者可以参考已有代码，编写功能更加强大的应用程序。