人民邮电出版社有限公司店铺主页二维码
人民邮电出版社有限公司 微信认证
人民邮电出版社微店,为您提供最全面,最专业的一站式购书服务
微信扫描二维码,访问我们的微信店铺
你可以使用微信联系我们,随时随地的购物、客服咨询、查询订单和物流...

数据预处理从入门到实战 基于SQL、R、Python R语言实战数据分析统计数据挖掘分析大数据处理与分析技术指南人工智能

66.80
运费: ¥ 0.00-20.00
数据预处理从入门到实战 基于SQL、R、Python R语言实战数据分析统计数据挖掘分析大数据处理与分析技术指南人工智能 商品图0
数据预处理从入门到实战 基于SQL、R、Python R语言实战数据分析统计数据挖掘分析大数据处理与分析技术指南人工智能 商品缩略图0

商品详情

书名:数据预处理从入门到实战 基于SQL、R、Python  
定价:89.0  
ISBN:9787115552327  
作者:本桥智光  
版次:第1版  
出版时间:2021-02  

内容提要:  
在大数据、人工智能时代,数据分析必不可少。本书以数据分析中到关重要的数据预处理为主题,通过54道例题具体介绍了基于SQL、R、Python的处理方法和相关技巧。全书共4个部分:*1部分介绍预处理的基础知识;*2部分介绍以数据结构为对象的预处理,包括数据提取、数据聚合、数据连接、数据拆分、数据生成和数据扩展;第3部分介绍以数据内容为对象的预处理,涉及数值型、分类型、日期时间型、字符型和位置信息型;第4部分为预处理实战,介绍与实际业务相同的预处理流程。 本书适合新手数据科学家、系统工程师、具备编程及数理基础的技术人才,以及对数据挖掘和数据分析等感兴趣的人阅读。  



作者简介:  
本桥智光(作者) 先后在系统开发公司担任研究员,在互联网企业担任数据科学家,目前在数字医疗初创公司SUSMED株式会社担任CTO,同时就职于HOXO-M株式会社,并以自由职业者的身份从事量子退火计算机的验证工作,拥有制造业、零售业、金融业、运输业、休闲业和互联网等多个行业的数据分析经验。曾在KDD CUP 2015中赢得亚军。爱好是开发马里奥AI。 Twitter:@tomomoto_LV3 陈涛(译者) 运筹学硕士毕业,主要从事数据库、数据分析工作,对机器学习、深度学习领域相关的理论和技术较为熟悉。因兴趣自学日语,一直致力于追求兴趣和工作的*美结合。 邮箱:victory123_456@163.com  

目录:  
第 1部分 预处理入门 1  
第 1章 什么是预处理 2  
1-1 数据 2  
记录数据 2  
数据类型 3  
1-2 预处理的作用 3  
机器学习 4  
无监督学习和有监督学习 4  
用于数据分析的3种预处理 5  
1-3 预处理的流程 6  
对数据结构的预处理 7  
对数据内容的预处理 7  
预处理的步骤 7  
1-4 3种编程语言 9  
正确使用编程语言 9  
1-5 包和库 10  
用于数据分析的包和库 10  
1-6 数据集 11  
酒店预订记录 12  
工厂产品记录 13  
月度指标记录 14  
文本数据集 14  
1-7 读取数据 14  
第 2部分 对数据结构的预处理 19  
第 2章 数据提取 20  
2-1 提取指定的列 20  
Q 提取列 21  
2-2 按指定条件提取 26  
Q 按条件提取数据行 28  
Q 间接利用索引提取数据行 33  
2-3 不基于数据值的采样 35  
Q 随机采样 35  
2-4 基于聚合ID的采样 38  
Q 按ID采样 39  
第3章 数据聚合 43  
3-1 计算数据条数和类型数 43  
Q 计数和唯*值计数 44  
3-2 计算合计值 48  
Q 合计值 48  
3-3 计算*值、代表值 50  
Q 代表值 51  
3-4 计算离散程度 54  
Q 方差和标准差 54  
3-5 计算众数 57  
Q 众数 58  
3-6 排序 61  
排序函数 61  
Q 为时序数据添加编号 62  
Q 排序 66  
第4章 数据连接 69  
4-1 主表的连接 69  
Q 主表的连接 70  
4-2 切换按条件连接的表 77  
Q 切换按条件连接的主表 77  
4-3 连接历史数据 84  
Q 获取往前数第n条记录的数据 85  
Q 前n条记录的合计值 88  
Q 前n条记录的平均值 92  
Q 过去n天的合计值 95  
4-4 交叉连接 99  
Q 交叉连接处理 99  
第5章 数据拆分 105  
5-1 记录数据中模型验证数据的拆分 105  
Q 交叉验证 107  
5-2 时序数据中模型验证数据的拆分 111  
Q 准备时序数据中的训练数据和验证数据 113  
第6章 数据生成 117  
6-1 通过欠采样调整不平衡数据 118  
6-2 通过过采样调整不平衡数据 119  
Q 过采样 120  
第7章 数据扩展 124  
7-1 转换为横向显示 124  
Q 转换为横向显示 125  
7-2 转换为稀疏矩阵 128  
Q 稀疏矩阵 128  
第3部分 对数据内容的预处理 131  
第8章 数值型 132  
8-1 转换为数值型 132  
Q 各种数据类型的转换 132  
8-2 通过对数化实现非线性变换 135  
Q 对数化 137  
8-3 通过分类化实现非线性变换 139  
Q 数值型的分类化 140  
8-4 归一化 142  
Q 归一化 143  
8-5 删除异常值 146  
Q 根据标准差删除异常值 146  
8-6 用主成分分析实现降维 148  
Q 用主成分分析实现降维 149  
8-7 数值填充 152  
Q 删除缺失记录 153  
Q 用常数填充 155  
Q 均值填充 157  
Q 用PMM实现多重插补 160  
第9章 分类型 164  
9-1 转换为分类型 164  
Q 分类型的转换 165  
9-2 哑变量化 168  
Q 哑变量化 169  
9-3 分类值的聚合 171  
Q 分类值的聚合 172  
9-4 分类值的组合 175  
Q 分类值的组合 175  
9-5 分类型的数值化 177  
Q 分类型的数值化 178  
9-6 分类型的填充 181  
Q 用KNN填充 182  
第 10章 日期时间型 185  
10-1 转换为日期时间型、日期型 185  
Q 日期时间型、日期型的转换 185  
10-2 转换为年、月、日、时、分、秒、星期 189  
Q 获取各日期时间元素 190  
10-3 转换为日期时间差 194  
Q 计算日期时间差 195  
10-4 日期时间型的增减 200  
Q 日期时间的增减处理 200  
10-5 转换为季节 203  
Q 转换为季节 204  
10-6 转换为时间段 208  
10-7 转换为工作日、休息日 209  
Q 添加休息日标志 209  
第 11章 字符型 212  
11-1 通过形态分析进行分解 213  
Q 提取名词和动词 213  
11-2 转换为单词的集合数据 215  
Q 创建词袋 216  
11-3 用TF-IDF调整单词权重 220  
Q 创建使用TF-IDF的词袋 221  
第 12章 位置信息型 224  
12-1 从日本坐标系到世界坐标系的转换以及从度、分、秒到度的转换 224  
Q 从日本坐标系转换为世界坐标系 224  
12-2 两点间距离、方向的计算 228  
Q 计算距离 228  
第4部分 预处理实战 233  
第 13章 实战练习 234  
13-1 聚合分析的预处理 234  
Q 聚合分析的准备工作 234  
13-2 用于推荐的预处理 238  
Q 生成推荐矩阵 238  
13-3 预测建模的预处理 243  
Q 用于预测建模的预处理 243  
结语 254  
参考文献 255  

人民邮电出版社有限公司店铺主页二维码
人民邮电出版社有限公司 微信公众号认证
人民邮电出版社微店,为您提供最全面,最专业的一站式购书服务
扫描二维码,访问我们的微信店铺
随时随地的购物、客服咨询、查询订单和物流...

数据预处理从入门到实战 基于SQL、R、Python R语言实战数据分析统计数据挖掘分析大数据处理与分析技术指南人工智能

手机启动微信
扫一扫购买

收藏到微信 or 发给朋友

1. 打开微信,扫一扫左侧二维码

2. 点击右上角图标

点击右上角分享图标

3. 发送给朋友、分享到朋友圈、收藏

发送给朋友、分享到朋友圈、收藏

微信支付

支付宝

扫一扫购买

打开微信,扫一扫

或搜索微信号:renyoushe
人民邮电出版社官方微信公众号

收藏到微信 or 发给朋友

1. 打开微信,扫一扫左侧二维码

2. 点击右上角图标

点击右上角分享图标

3. 发送给朋友、分享到朋友圈、收藏

发送给朋友、分享到朋友圈、收藏