商品详情
书名:数据采集及预处理基础与应用
定价:79.8
ISBN:9787115635259
作者:陈瑛 许桂秋 周敏
版次:第1版
出版时间:2024-02
内容提要:
本书主要介绍如何利用Kettle和Python这两个具有代表性的工具进行数据预处理的相关技术与方法,包括数据抽取、数据清洗、数据集成、数据变换等。全书有9章,内容涉及数据采集、环境部署、Kettle安装及应用、pandas应用,以及数据可视化的基础内容。本书采用任务式编写形式,将大数据预处理技术的理论和实现分解到一个个任务中,融入到一个个典型案例中,让读者在完成各任务的同时掌握和理解相关内容。 本书既有技术的深度,也有行业应用的广度,适合作为高等院校计算机、数据科学与大数据技术等相关专业课程的教材,也适合作为数据处理行业从业人员的参考用书。
作者简介:
许桂秋,主要研究方向大数据和人工智能,已出版《大数据导论》《Python编程基础与应用》《NoSQL数据库原理与应用》《数据挖掘与机器学习》等图书。
目录:
第 1章 Scrapy电影评论数据采集 1
任务1.1 数据采集 1
1.1.1 数据采集概述 1
1.1.2 数据采集方法 1
1.1.3 数据采集应用 3
任务1.2 网络爬虫 4
1.2.1 网络爬虫概述 4
1.2.2 常用网络爬虫方法 4
1.2.3 常用网络爬虫工具 5
任务1.3 网络爬虫实战 6
1.3.1 获取网页 7
1.3.2 解析网页 9
1.3.3 应对反爬机制 11
本章习题 12
第 2章 数据预处理环境安装 13
任务2.1 数据预处理出现的背景及其目的 13
2.1.1 数据预处理出现的背景 13
2.1.2 数据预处理的目的 14
任务2.2 数据预处理的流程 15
2.2.1 数据清洗 15
2.2.2 数据集成 17
2.2.3 数据归约 18
2.2.4 数据变换与数据离散化 23
2.3.5 数据预处理的注意事项 26
任务2.3 数据预处理的工具 26
2.3.1 Python预处理环境安装 27
2.3.2 Kettle的下载安装与Spoon的启动 30
本章习题 34
第3章 Kettle的初步使用 35
任务3.1 Kettle的特点 36
任务3.2 Kettle的使用 36
3.2.1 转换的基本概念 36
3.2.2 第 一个转换案例 39
本章习题 53
第4章 基于Kettle的客户信息数据预处理 54
任务4.1 客户信息数据抽取 54
4.1.1 从文本文件读入性别参照数据 54
4.1.2 从Excel文件读入客户信息数据 56
4.1.3 从MySQL数据库读取城市区号参照数据 60
任务4.2 客户信息数据清洗 65
4.2.1 数据排序 65
4.2.2 去除重复数据 66
4.2.3 处理缺失值 73
4.2.4 字段清洗 75
4.2.5 字符串清洗 78
4.2.6 处理异常数据 82
任务4.3 将客户信息数据加载*MySQL数据库 88
本章习题 91
第5章 基于pandas的学生信息预处理 92
任务5.1 pandas详解 92
5.1.1 pandas的数据结构及基本功能 92
5.1.2 数据加载与存储 130
任务5.2 学生信息预处理 141
5.2.1 数据读取及查看 141
5.2.2 索引对象 144
5.2.3 数据排序 145
本章习题 148
第6章 使用Python对运动员信息进行预处理 149
任务6.1 数据清洗 149
6.1.1 处理缺失数据 149
6.1.2 字符串操作 156
6.1.3 中国篮球运动员的基本信息清洗 163
任务6.2 数据集成 168
6.2.1 数据合并的常用方法 168
6.2.2 中国篮球运动员的基本信息合并 182
任务6.3 数据规约 183
6.3.1 数据规约方法 183
6.3.2 中国篮球运动员的基本信息规约 184
任务6.4 数据变换 185
6.4.1 数据变换常用方法 185
6.4.2 中国篮球运动员的基本信息数据变换 203
本章习题 206
第7章 使用Python对电影人气进行预测(构建特征工程) 207
任务7.1 特征工程简介 207
7.1.1 特征工程的重要性 207
7.1.2 特征工程是什么 208
7.1.3 特征工程的评估 208
任务7.2 电影人气预测 210
7.2.1 scikit-learn简介 210
7.2.2 特征变换 211
7.2.3 特征选择 222
7.2.4 电影人气预测特征工程 237
本章习题 255
第8章 基于Python的销售数据仓库应用案例 256
任务8.1 数据仓库简介 256
8.1.1 数据仓库出现的背景及其特点 256
8.1.2 数据仓库的功能 257
8.1.3 数据仓库与数据库的区别 258
任务8.2 数据仓库模型 259
8.2.1 事实表和维度表 259
8.2.2 数据模型的分类 260
8.2.3 建模阶段划分 260
8.2.4 常用建模方法 261
8.2.5 星形模型和雪花模型 262
任务8.3 数据仓库案例 264
8.3.1 案例目的 264
8.3.2 案例背景 265
8.3.3 案例原理 265
8.3.4 案例环境 265
8.3.5 案例步骤 265
8.3.6 案例总结 273
本章习题 273
第9章 Python数据分析师岗位分析 274
任务9.1 了解项目背景与目标 274
任务9.2 读取与清洗数据分析师岗位数据 275
9.2.1 分析目标与思路 275
9.2.2 数据收集 276
9.2.3 数据预处理 278
任务9.3 数据分析与可视化 281
9.3.1 数据分析师岗位的需求趋势 281
9.3.2 数据分析师岗位的热门城市Top10 283
9.3.3 不同城市数据分析师岗位的薪资水平 284
9.3.4 数据分析师岗位的学历要求 286
任务9.4 总结 287
本章习题 287
定价:79.8
ISBN:9787115635259
作者:陈瑛 许桂秋 周敏
版次:第1版
出版时间:2024-02
内容提要:
本书主要介绍如何利用Kettle和Python这两个具有代表性的工具进行数据预处理的相关技术与方法,包括数据抽取、数据清洗、数据集成、数据变换等。全书有9章,内容涉及数据采集、环境部署、Kettle安装及应用、pandas应用,以及数据可视化的基础内容。本书采用任务式编写形式,将大数据预处理技术的理论和实现分解到一个个任务中,融入到一个个典型案例中,让读者在完成各任务的同时掌握和理解相关内容。 本书既有技术的深度,也有行业应用的广度,适合作为高等院校计算机、数据科学与大数据技术等相关专业课程的教材,也适合作为数据处理行业从业人员的参考用书。
作者简介:
许桂秋,主要研究方向大数据和人工智能,已出版《大数据导论》《Python编程基础与应用》《NoSQL数据库原理与应用》《数据挖掘与机器学习》等图书。
目录:
第 1章 Scrapy电影评论数据采集 1
任务1.1 数据采集 1
1.1.1 数据采集概述 1
1.1.2 数据采集方法 1
1.1.3 数据采集应用 3
任务1.2 网络爬虫 4
1.2.1 网络爬虫概述 4
1.2.2 常用网络爬虫方法 4
1.2.3 常用网络爬虫工具 5
任务1.3 网络爬虫实战 6
1.3.1 获取网页 7
1.3.2 解析网页 9
1.3.3 应对反爬机制 11
本章习题 12
第 2章 数据预处理环境安装 13
任务2.1 数据预处理出现的背景及其目的 13
2.1.1 数据预处理出现的背景 13
2.1.2 数据预处理的目的 14
任务2.2 数据预处理的流程 15
2.2.1 数据清洗 15
2.2.2 数据集成 17
2.2.3 数据归约 18
2.2.4 数据变换与数据离散化 23
2.3.5 数据预处理的注意事项 26
任务2.3 数据预处理的工具 26
2.3.1 Python预处理环境安装 27
2.3.2 Kettle的下载安装与Spoon的启动 30
本章习题 34
第3章 Kettle的初步使用 35
任务3.1 Kettle的特点 36
任务3.2 Kettle的使用 36
3.2.1 转换的基本概念 36
3.2.2 第 一个转换案例 39
本章习题 53
第4章 基于Kettle的客户信息数据预处理 54
任务4.1 客户信息数据抽取 54
4.1.1 从文本文件读入性别参照数据 54
4.1.2 从Excel文件读入客户信息数据 56
4.1.3 从MySQL数据库读取城市区号参照数据 60
任务4.2 客户信息数据清洗 65
4.2.1 数据排序 65
4.2.2 去除重复数据 66
4.2.3 处理缺失值 73
4.2.4 字段清洗 75
4.2.5 字符串清洗 78
4.2.6 处理异常数据 82
任务4.3 将客户信息数据加载*MySQL数据库 88
本章习题 91
第5章 基于pandas的学生信息预处理 92
任务5.1 pandas详解 92
5.1.1 pandas的数据结构及基本功能 92
5.1.2 数据加载与存储 130
任务5.2 学生信息预处理 141
5.2.1 数据读取及查看 141
5.2.2 索引对象 144
5.2.3 数据排序 145
本章习题 148
第6章 使用Python对运动员信息进行预处理 149
任务6.1 数据清洗 149
6.1.1 处理缺失数据 149
6.1.2 字符串操作 156
6.1.3 中国篮球运动员的基本信息清洗 163
任务6.2 数据集成 168
6.2.1 数据合并的常用方法 168
6.2.2 中国篮球运动员的基本信息合并 182
任务6.3 数据规约 183
6.3.1 数据规约方法 183
6.3.2 中国篮球运动员的基本信息规约 184
任务6.4 数据变换 185
6.4.1 数据变换常用方法 185
6.4.2 中国篮球运动员的基本信息数据变换 203
本章习题 206
第7章 使用Python对电影人气进行预测(构建特征工程) 207
任务7.1 特征工程简介 207
7.1.1 特征工程的重要性 207
7.1.2 特征工程是什么 208
7.1.3 特征工程的评估 208
任务7.2 电影人气预测 210
7.2.1 scikit-learn简介 210
7.2.2 特征变换 211
7.2.3 特征选择 222
7.2.4 电影人气预测特征工程 237
本章习题 255
第8章 基于Python的销售数据仓库应用案例 256
任务8.1 数据仓库简介 256
8.1.1 数据仓库出现的背景及其特点 256
8.1.2 数据仓库的功能 257
8.1.3 数据仓库与数据库的区别 258
任务8.2 数据仓库模型 259
8.2.1 事实表和维度表 259
8.2.2 数据模型的分类 260
8.2.3 建模阶段划分 260
8.2.4 常用建模方法 261
8.2.5 星形模型和雪花模型 262
任务8.3 数据仓库案例 264
8.3.1 案例目的 264
8.3.2 案例背景 265
8.3.3 案例原理 265
8.3.4 案例环境 265
8.3.5 案例步骤 265
8.3.6 案例总结 273
本章习题 273
第9章 Python数据分析师岗位分析 274
任务9.1 了解项目背景与目标 274
任务9.2 读取与清洗数据分析师岗位数据 275
9.2.1 分析目标与思路 275
9.2.2 数据收集 276
9.2.3 数据预处理 278
任务9.3 数据分析与可视化 281
9.3.1 数据分析师岗位的需求趋势 281
9.3.2 数据分析师岗位的热门城市Top10 283
9.3.3 不同城市数据分析师岗位的薪资水平 284
9.3.4 数据分析师岗位的学历要求 286
任务9.4 总结 287
本章习题 287
- 人民邮电出版社有限公司 (微信公众号认证)
- 人民邮电出版社微店,为您提供最全面,最专业的一站式购书服务
- 扫描二维码,访问我们的微信店铺
- 随时随地的购物、客服咨询、查询订单和物流...