商品详情
书名: | 数据挖掘与预测分析(第2版)(大数据应用与技术丛书) |
出版社: | 清华大学出版社 |
出版日期: | 2017 |
ISBN号: | 9787302459873 |
通过做数据分析学习数据分析《数据挖掘与预测分析(第2版)》提供了从数据准备到探索性数据分析、数据建模及模型评估等整个数据分析过程的内容。《数据挖掘与预测分析(第2版)》不仅提供了理解软件底层算法的“白盒”方法,而且提供了能够使读者利用现实世界数据集开展数据挖掘与预测分析的应用方法。 第2版的新内容: ●添加了500多页的新内容,包括20个新章节,例如,数据建模准备、成本-效益分析、缺失数据填充、聚类优劣度量以及细分模型等。 ●针对前沿主题的新章节,例如,多元分类模型、BIRCH聚类、集成学习(bagging及boosting)、模型投票与趋向平均等。 ●每章节后均附有R语言开发园地,读者可以获得完成书中分析所需的R语言源代码,以及通过R代码生成的图、表和结果。 ●书中的附录为那些对统计基础生疏的读者提供了了解基本概念的材料。 ●?超过750个章节练习,使读者能够自己测试对所学知识的掌握程度,并着手开展数据挖掘与预测分析工作。 《数据挖掘与预测分析(第2版)》将对数据分析人员、数据库分析人员以及CIO具有极大的吸引力,通过学习将使他们知道何种类型的分析将会增加其投资回报。 |
Daniel T. Larose博士,美国中康涅狄格州立大学数学科学教授,数据挖掘项目负责人。出版与数据挖掘、Web挖掘和统计理论等相关论著多本。他也是《微软》、《福布斯》杂志以及《经济学人》杂志等数据挖掘与统计分析领域的顾问。 Chantal D. Larose是美国康涅狄格大学的在读博士。其研究领域包括缺失数据填补以及基于模型的聚类等。她已获得美国新帕尔兹纽约州立大学商学院决策科学领域助理教授的职位。 |
本书提出的方法和技术全面、深入,几乎涵盖了当前应用中常见的各类挖掘与分析方法。对方法的介绍从概念、算法、评价等部分着手,深入浅出地加以介绍。在介绍方法的章节中增加了R语言开发园地,帮助读者利用R语言开展实际设计和开发工作,获得章节中涉及内容的结果,便于读者掌握所学内容。 |
第Ⅰ部分 数据准备 第1章 数据挖掘与预测分析概述 3 1.1 什么是数据挖掘和预测分析 3 1.2 需求:数据挖掘技术人员 4 1.3 数据挖掘离不开人的参与 5 1.4 跨行业数据挖掘标准过程: CRISP-DM 6 1.5 数据挖掘的谬误 8 1.6 数据挖掘能够完成的任务 9 1.6.1 描述 9 1.6.2 评估 10 1.6.3 预测 11 1.6.4 分类 11 1.6.5 聚类 13 1.6.6 关联 14 R语言开发园地 15 R参考文献 16 练习 16 第2章 数据预处理 17 2.1 需要预处理数据的原因 17 2.2 数据清理 18 2.3 处理缺失数据 19 2.4 识别错误分类 22 2.5 识别离群值的图形方法 22 2.6 中心和散布度量 24 2.7 数据变换 26 2.8 min-max规范化 26 2.9 Z-score标准化 27 2.10 小数定标规范化 28 2.11 变换为正态数据 28 2.12 识别离群值的数值方法 34 2.13 标志变量 35 2.14 将分类变量转换为数值变量 35 2.15 数值变量分箱 36 2.16 对分类变量重新划分类别 37 2.17 添加索引字段 37 2.18 删除无用变量 38 2.19 可能不应该删除的变量 38 2.20 删除重复记录 39 2.21 ID字段简述 39 R语言开发园地 39 R参考文献 45 练习 45 第3章 探索性数据分析 49 3.1 假设检验与探索性数据分析 49 3.2 了解数据集 49 3.3 探索分类变量 52 3.4 探索数值变量 58 3.5 探索多元关系 62 3.6 选择感兴趣的数据子集作进一步研究 64 3.7 使用EDA发现异常字段 64 3.8 基于预测值分级 65 3.9 派生新变量:标志变量 67 3.10 派生新变量:数值变量 69 3.11 使用EDA探测相关联的预测 变量 70 ...... |
- 清华大学出版社旗舰店 (微信公众号认证)
- 扫描二维码,访问我们的微信店铺
- 随时随地的购物、客服咨询、查询订单和物流...