商品详情
书名: | 数据科学导论 |
出版社: | 清华大学出版社 |
出版日期 | 2021 |
ISBN号: | 9787302569688 |
本教材介绍数据科学的通识入门知识,可以作为高等院校大数据专业的专业基础课程教材。本教材以“建立知识体系、掌握基本原理、学会初级实践、了解相关技术”为原则,为计算机专业类学生深入学习数据科学和大数据技术奠定基础。本教材将系统讲授数据科学的基本概念和知识体系、数据分析的基本流程和方法(包括数据预处理,回归、聚类、分类等智能分析技术)、大数据分析的基本工具,并以Python语言为例,通过大量实例和练习讲授初级的数据分析技术。 |
石川,男,1978年4月生于湖北洪湖。现就职于北京邮电大学计算机学院,教授、博导。长期专注于数据挖掘与机器学习研究,发表高水平论文50余篇。获北京市“师德先锋”称号和“青年英才”计划支持。 |
目录 第1章数据科学概论1 1.1数据和大数据1 1.1.1数据1 1.1.2数据化进程3 1.1.3大数据5 1.2数据科学理论基础8 1.2.1数据科学发展历程8 1.2.2数据科学的概念9 1.2.3数据科学的主要内容9 1.3数据科学应用实践13 1.3.1数据科学家13 1.3.2数据科学工作流程14 1.3.3数据科学实践案例15 1.4小结19 1.4.1本章总结19 1.4.2扩展阅读材料20 1.5习题20 1.6参考资料21 第2章数学基础23 2.1线性代数23 2.1.1向量23 2.1.2矩阵24 2.1.3矩阵导数29 2.1.4实例: 利用SVD进行评分预测31 2.2概率统计32 2.2.1随机事件与概率33 2.2.2条件概率与事件独立性342.2.3随机变量及其数字特征36 2.2.4数理统计41 2.2.5信息论42 2.2.6实例: 利用朴素贝叶斯算法进行文本分类43 2.3优化理论44 2.3.1基本概念45 2.3.2优化问题的一般形式48 2.3.3优化方法54 2.3.4实例: SVM分类器57 2.4图论基础58 2.4.1图的定义58 2.4.2图的概念59 2.4.3图的矩阵表示62 2.4.4拉普拉斯矩阵与谱64 2.4.5实例: 谱聚类算法65 2.5小结67 2.5.1本章总结67 2.5.2扩展阅读材料68 2.6习题68 2.7参考资料69 数据科学导论目录第3章Python语言初步70 3.1Python语言概述70 3.1.1Python语言简介70 3.1.2Python语言环境搭建71 3.2Python的基本用法72 3.2.1列表与元组72 3.2.2字符串77 3.2.3字典79 3.2.4条件与循环语句83 3.2.5函数88 3.2.6文件94 3.2.7综合实例96 3.3重要库的使用方法与案例100 3.3.1NumPy100 3.3.2Pandas108 3.3.3SciPy118 3.3.4Matplotlib122 3.4小结124 3.4.1本章总结124 3.4.2扩展阅读材料125 3.5习题125 3.6参考资料126 第4章数据预处理127 4.1数据预处理概述127 4.1.1数据预处理的意义与目标127 4.1.2背景知识128 4.1.3数据可视化实例130 4.2数据清洗133 4.2.1缺失值处理133 4.2.2噪声平滑136 4.2.3异常值的检测与处理137 4.3数据集成140 4.3.1实体识别问题141 4.3.2检测和解决数据值冲突141 4.3.3冗余数据与相关分析141 4.3.4元组重复143 4.4数据归约144 4.4.1数据归约策略144 4.4.2维归约145 4.4.3数量归约148 4.5数据变换150 4.5.1数据变换策略150 4.5.2规范化150 4.5.3离散化153 4.5.4标称数据的概念分层生成155 4.6数据预处理实践156 4.7小结167 4.7.1本章总结167 4.7.2扩展阅读材料168 4.8习题168 4.9参考资料169 第5章分析方法初步170 5.1机器学习基础170 5.1.1何为机器学习170 5.1.2基本术语171 5.1.3模型评估与性能度量172 5.1.4发展历程177 5.2Sklearn库基本使用178 5.2.1Sklearn库简介178 5.2.2基本使用介绍178 5.3回归184 5.3.1线性回归184 5.3.2Logistic回归187 5.3.3其他回归模型190 5.4分类191 5.4.1决策树191 5.4.2K近邻算法195 5.4.3朴素贝叶斯197 5.4.4支持向量机199 5.5聚类202 5.5.1概述202 5.5.2原型聚类203 5.5.3密度聚类207 5.5.4层次聚类209 5.6神经网络212 5.6.1神经元模型212 5.6.2感知机与多层神经网络213 5.6.3误差逆传播算法215 5.6.4深度学习217 5.7集成学习219 5.7.1概述219 5.7.2序列化方法221 5.7.3并行化方法223 5.8小结224 5.8.1本章总结225 5.8.2扩展阅读材料225 5.9习题226 5.10参考资料226 第6章数据科学实践228 6.1数据分析流程228 6.1.1数据挖掘目标228 6.1.2数据采样228 6.1.3数据预处理229 6.1.4数据探索230 6.1.5数据建模230 6.1.6数据分析工具230 6.2案例1——Kaggle Titanic生存预测231 6.2.1数据挖掘目标231 6.2.2数据导入和预处理231 6.2.3数据探索235 6.2.4模型构建236 6.3案例2——客户价值分析238 6.3.1数据挖掘目标238 6.3.2数据导入和预处理238 6.3.3数据探索242 6.3.4模型构建242 6.4案例3——时间序列预测244 6.4.1数据挖掘目标244 6.4.2数据导入244 6.4.3数据探索245 6.4.4模型构建250 6.5案例4——价格预测挑战253 6.5.1数据挖掘目标253 6.5.2数据导入和预处理253 6.5.3数据探索和模型构建255 6.6小结257 6.6.1本章总结257 6.6.2扩展阅读材料257 6.7习题257 6.8参考资料258 第7章数据科学的重要研究领域259 7.1文本分析259 7.1.1文本分析简介259 7.1.2文本分析的任务与方法261 7.1.3知识图谱266 7.1.4文本分析的应用269 7.2图像视频分析271 7.2.1图像视频分析简介272 7.2.2图像分析的任务与方法273 7.2.3视频分析的任务与方法276 7.2.4图像视频分析的应用278 7.3网络分析281 7.3.1网络结构分析281 7.3.2复杂网络283 7.3.3社交网络分析287 7.3.4异质信息网络分析292 7.4可视化分析295 7.4.1可视化分析简介295 7.4.2可视化分析应用场景296 7.4.3可视化分析工具301 7.5小结306 7.5.1本章总结306 7.5.2扩展阅读材料307 7.6习题307 7.7参考资料308 第8章大数据处理技术简介311 8.1云计算311 8.1.1云计算的概念311 8.1.2云计算的基本特点311 8.1.3云计算的服务类型312 8.1.4云计算的部署方式314 8.1.5云计算与其他计算模式的区别316 8.2云计算平台317 8.2.1虚拟化技术317 8.2.2虚拟化产品及特点319 8.2.3AWS亚马逊云服务321 8.2.4阿里云323 8.3Hadoop及其生态环境327 8.3.1Hadoop简介327 8.3.2HDFS文件系统328 8.3.3YARN资源管理器331 8.3.4MapReduce计算模型334 8.3.5Hadoop生态系统337 8.3.6Hadoop 3.0的新特性340 8.4Spark及其生态环境341 8.4.1Spark简介341 8.4.2RDD以及DAG调度342 8.4.3Spark生态系统344 8.5应用案例346 8.5.1安装虚拟机集群环境346 8.5.2运行案例代码355 8.6小结356 8.6.1本章总结357 8.6.2扩展阅读材料358 8.7习题358 8.8参考资料358 |
- 清华大学出版社旗舰店 (微信公众号认证)
- 扫描二维码,访问我们的微信店铺
- 随时随地的购物、客服咨询、查询订单和物流...