*征工程的艺术 通用技巧与实用案例 机器学习人工智能强化学习 python编程从入门到*通 Linux图形图像数据处理
¥67.40
| 运费: | ¥ 0.00-20.00 |
商品详情
书名:*征工程的艺术:通用技巧与实用案例
定*:89.8
ISBN:9787**55884*8
作者:巴勃罗·迪布
版次:第*版
出版时间:2022-05
内容提要:
*征工程可以修改数据*征,更好地捕获问题本质,从而改进结果。这个过程既是*种艺术,也是技巧和诀窍的*种结合。本书是*本*征工程实用指南,主要探讨如何利用*征工程提*机器学习解决方案的性能。本书从*征工程的基本概念和技术开始介绍,建立了*种**的跨*域方法,通过充分研究案例详细介绍了图数据、时间戳数据、文本数据和图像数据的处理方法,*括分箱、折外估计、*征选择、数据降维和可变长度数据编码等重要主题。
作者简介:
巴勃罗·迪布(Pablo Duboue) NLP*。2005年博士毕业于美*哥伦比亚大学,师从ACL前主席Kathleen McKeown教授,曾是IBM Watson DeepQA团队成员。20*6年*办NLP技术公司Textualization。他有丰富的教学经验,是*多所大学的访问教授。
目录:
第 **分 基础知识
第 *章 简介 2
*.* *征工程 4
*.2 模型评* 8
*.2.* 度量 8
*.2.2 交叉验证 *0
*.2.3 过拟合 **
*.2.4 维数灾难 *2
*.3 周期 *2
*.3.* ML周期 *3
*.3.2 *征工程周期 *5
*.4 分析 *7
*.4.* 探索性数据分析 *7
*.4.2 误差分析 *8
*.5 其他过程 20
*.5.* *域建模 20
*.5.2 *征构建 22
*.6 讨论 24
*.7 扩展学习 26
第 2章 *征组合:归*化、离散化和异常值 28
2.* 归*化*征 29
2.*.* 标准化和去相关性 3*
2.*.2 平滑 33
2.*.3 *征加权 34
2.2 离散化和分箱 35
2.2.* *监督离散化 36
2.2.2 监督离散化 38
2.3 描述性*征 4*
2.3.* 直方图 4*
2.3.2 其他描述性*征 43
2.4 处理异常值 44
2.5 *级技术 46
2.6 扩展学习 47
第3章 *征扩展:可计算*征、填充与核技巧 48
3.* 可计算*征 49
3.2 填充 54
3.3 复杂*征分解 57
3.4 核操作*征扩展 59
3.5 扩展学习 62
第4章 *征缩减:*征选择、降维和嵌入 64
4.* *征选择 65
4.*.* 度量 66
4.*.2 组成*征集:搜索与筛选 73
4.*.3 *级技术 75
4.2 正则化与嵌入式*征选择 77
4.2.* L2 正则化:岭回归 78
4.2.2 L* 正则化:LASSO 78
4.2.3 其他使用嵌入式*征选择的算法 79
4.3 数据降维 80
4.3.* *征哈希 8*
4.3.2 随机投影 82
4.3.3 奇异值分解 82
4.3.4 隐狄利克雷分配 83
4.3.5 聚类 84
4.3.6 其他数据降维技术 85
4.3.7 嵌入 86
4.4 扩展学习 90
第5章 *级主题:可变长度数据与自动*征工程 9*
5.* 可变长度*征向量 9*
5.*.* 集合 9*
5.*.2 列表 92
5.*.3 树 94
5.*.4 图 96
5.*.5 时间序列 97
5.2 基于实例的*征工程 *00
5.3 深度学习与*征工程 *02
5.4 自动*征工程 *05
5.4.* *征学习 *05
5.4.2 *监督*征工程 *08
5.5 扩展学习 *09
第二*分 案例研究
第6章 图数据 **3
6.0 本章概述 **5
6.* WikiCities数据集 **6
6.2 探索性数据分析 **7
6.3 第 *个*征集 *24
6.4 第二个*征集 *30
6.5 最*的*征集 *3*
6.6 扩展学习 *33
第7章 时间戳数据 *34
7.0 本章概述 *35
7.* WikiCities:历史*征 *37
7.2 时间延迟*征 *39
7.2.* 填充时间戳数据 *39
7.2.2 第 *次*征化:填充二*延迟数据 *40
7.2.3 误差分析 *4*
7.3 滑动窗口 *42
7.4 第三次*征化:EMA *43
7.5 使用历史数据进行扩展 *43
7.5.* 第四次*征化:扩展的数据 *44
7.6 时间序列 *45
7.6.* WikiCountries数据集 *45
7.6.2 探索性数据分析 *46
7.6.3 第 *次*征化:*TS*征 *49
7.6.5 使用模型预测作为*征 *49
7.6.6 讨论 *50
7.7 扩展学习 *5*
第8章 文本数据 *53
8.0 本章概述 *55
8.* WikiCities:文本 *56
8.2 探索性数据分析 *56
8.3 *数值型记号 *59
8.3.* 词类型与记号 *60
8.3.2 分词:基础知识 *60
8.3.3 第 *次*征化 *6*
8.4 词袋 *62
8.4.* 分词 *62
8.4.2 第二次*征化 *63
8.5 停用词和形态学*征 *65
8.5.* 停用词 *65
8.5.2 分词:词干提取 *66
8.5.3 第三次*征化 *66
8.6 上下文*征 *67
8.6.* 二元词 *68
8.6.2 第四次*征化 *69
8.7 跳跃二元词与*征哈希 *69
8.7.* 跳跃二元词 *69
8.7.2 第五次*征化 *69
8.8 数据降维与嵌入 *70
8.8.* 嵌入 *70
8.8.2 *征加权:TF-IDF *7*
8.8.3 第六次*征化 *72
8.9 结束语 *72
8.9.* 内容扩展 *74
8.9.2 文本中的结构 *74
8.*0 扩展学习 *74
第9章 图像数据 *75
9.0 本章概述 *76
9.* WikiCities:卫星图像 *77
9.2 探索性数据分析 *78
9.3 像素**征 *79
9.3.* 第 *次*征化 *79
9.3.2 可计算*征:*斯模糊 *80
9.3.3 白化 *82
9.3.4 对变动的误差分析 *83
9.4 自动数据集扩展 *83
9.4.* 仿射变换 *84
9.4.2 第二次*征化 *84
9.5 描述性*征:直方图 *84
9.6 局**征检测器:角点 *85
9.6.* Harris角点检测 *86
9.6.2 第四次*征化 *86
9.7 数据降维:HOG *87
9.8 结束语 *89
9.9 扩展学习 *9*
第 *0章 其他*域:视频、GIS和偏好 *92
*0.* 视频 *93
*0.*.* 数据:屏幕录制 *94
*0.*.2 关键帧检测 *94
*0.*.3 目标跟踪:均值漂移 *95
*0.*.4 扩展学习 *97
*0.2 地理*征 *97
*0.3 偏好 *99
*0.3.* 数据:Linux核心代码提交 200
*0.3.2 填充偏好数据 20*
*0.3.3 扩展学习 202
定*:89.8
ISBN:9787**55884*8
作者:巴勃罗·迪布
版次:第*版
出版时间:2022-05
内容提要:
*征工程可以修改数据*征,更好地捕获问题本质,从而改进结果。这个过程既是*种艺术,也是技巧和诀窍的*种结合。本书是*本*征工程实用指南,主要探讨如何利用*征工程提*机器学习解决方案的性能。本书从*征工程的基本概念和技术开始介绍,建立了*种**的跨*域方法,通过充分研究案例详细介绍了图数据、时间戳数据、文本数据和图像数据的处理方法,*括分箱、折外估计、*征选择、数据降维和可变长度数据编码等重要主题。
作者简介:
巴勃罗·迪布(Pablo Duboue) NLP*。2005年博士毕业于美*哥伦比亚大学,师从ACL前主席Kathleen McKeown教授,曾是IBM Watson DeepQA团队成员。20*6年*办NLP技术公司Textualization。他有丰富的教学经验,是*多所大学的访问教授。
目录:
第 **分 基础知识
第 *章 简介 2
*.* *征工程 4
*.2 模型评* 8
*.2.* 度量 8
*.2.2 交叉验证 *0
*.2.3 过拟合 **
*.2.4 维数灾难 *2
*.3 周期 *2
*.3.* ML周期 *3
*.3.2 *征工程周期 *5
*.4 分析 *7
*.4.* 探索性数据分析 *7
*.4.2 误差分析 *8
*.5 其他过程 20
*.5.* *域建模 20
*.5.2 *征构建 22
*.6 讨论 24
*.7 扩展学习 26
第 2章 *征组合:归*化、离散化和异常值 28
2.* 归*化*征 29
2.*.* 标准化和去相关性 3*
2.*.2 平滑 33
2.*.3 *征加权 34
2.2 离散化和分箱 35
2.2.* *监督离散化 36
2.2.2 监督离散化 38
2.3 描述性*征 4*
2.3.* 直方图 4*
2.3.2 其他描述性*征 43
2.4 处理异常值 44
2.5 *级技术 46
2.6 扩展学习 47
第3章 *征扩展:可计算*征、填充与核技巧 48
3.* 可计算*征 49
3.2 填充 54
3.3 复杂*征分解 57
3.4 核操作*征扩展 59
3.5 扩展学习 62
第4章 *征缩减:*征选择、降维和嵌入 64
4.* *征选择 65
4.*.* 度量 66
4.*.2 组成*征集:搜索与筛选 73
4.*.3 *级技术 75
4.2 正则化与嵌入式*征选择 77
4.2.* L2 正则化:岭回归 78
4.2.2 L* 正则化:LASSO 78
4.2.3 其他使用嵌入式*征选择的算法 79
4.3 数据降维 80
4.3.* *征哈希 8*
4.3.2 随机投影 82
4.3.3 奇异值分解 82
4.3.4 隐狄利克雷分配 83
4.3.5 聚类 84
4.3.6 其他数据降维技术 85
4.3.7 嵌入 86
4.4 扩展学习 90
第5章 *级主题:可变长度数据与自动*征工程 9*
5.* 可变长度*征向量 9*
5.*.* 集合 9*
5.*.2 列表 92
5.*.3 树 94
5.*.4 图 96
5.*.5 时间序列 97
5.2 基于实例的*征工程 *00
5.3 深度学习与*征工程 *02
5.4 自动*征工程 *05
5.4.* *征学习 *05
5.4.2 *监督*征工程 *08
5.5 扩展学习 *09
第二*分 案例研究
第6章 图数据 **3
6.0 本章概述 **5
6.* WikiCities数据集 **6
6.2 探索性数据分析 **7
6.3 第 *个*征集 *24
6.4 第二个*征集 *30
6.5 最*的*征集 *3*
6.6 扩展学习 *33
第7章 时间戳数据 *34
7.0 本章概述 *35
7.* WikiCities:历史*征 *37
7.2 时间延迟*征 *39
7.2.* 填充时间戳数据 *39
7.2.2 第 *次*征化:填充二*延迟数据 *40
7.2.3 误差分析 *4*
7.3 滑动窗口 *42
7.4 第三次*征化:EMA *43
7.5 使用历史数据进行扩展 *43
7.5.* 第四次*征化:扩展的数据 *44
7.6 时间序列 *45
7.6.* WikiCountries数据集 *45
7.6.2 探索性数据分析 *46
7.6.3 第 *次*征化:*TS*征 *49
7.6.5 使用模型预测作为*征 *49
7.6.6 讨论 *50
7.7 扩展学习 *5*
第8章 文本数据 *53
8.0 本章概述 *55
8.* WikiCities:文本 *56
8.2 探索性数据分析 *56
8.3 *数值型记号 *59
8.3.* 词类型与记号 *60
8.3.2 分词:基础知识 *60
8.3.3 第 *次*征化 *6*
8.4 词袋 *62
8.4.* 分词 *62
8.4.2 第二次*征化 *63
8.5 停用词和形态学*征 *65
8.5.* 停用词 *65
8.5.2 分词:词干提取 *66
8.5.3 第三次*征化 *66
8.6 上下文*征 *67
8.6.* 二元词 *68
8.6.2 第四次*征化 *69
8.7 跳跃二元词与*征哈希 *69
8.7.* 跳跃二元词 *69
8.7.2 第五次*征化 *69
8.8 数据降维与嵌入 *70
8.8.* 嵌入 *70
8.8.2 *征加权:TF-IDF *7*
8.8.3 第六次*征化 *72
8.9 结束语 *72
8.9.* 内容扩展 *74
8.9.2 文本中的结构 *74
8.*0 扩展学习 *74
第9章 图像数据 *75
9.0 本章概述 *76
9.* WikiCities:卫星图像 *77
9.2 探索性数据分析 *78
9.3 像素**征 *79
9.3.* 第 *次*征化 *79
9.3.2 可计算*征:*斯模糊 *80
9.3.3 白化 *82
9.3.4 对变动的误差分析 *83
9.4 自动数据集扩展 *83
9.4.* 仿射变换 *84
9.4.2 第二次*征化 *84
9.5 描述性*征:直方图 *84
9.6 局**征检测器:角点 *85
9.6.* Harris角点检测 *86
9.6.2 第四次*征化 *86
9.7 数据降维:HOG *87
9.8 结束语 *89
9.9 扩展学习 *9*
第 *0章 其他*域:视频、GIS和偏好 *92
*0.* 视频 *93
*0.*.* 数据:屏幕录制 *94
*0.*.2 关键帧检测 *94
*0.*.3 目标跟踪:均值漂移 *95
*0.*.4 扩展学习 *97
*0.2 地理*征 *97
*0.3 偏好 *99
*0.3.* 数据:Linux核心代码提交 200
*0.3.2 填充偏好数据 20*
*0.3.3 扩展学习 202
- 人民邮电出版社有限公司 (微信公众号认证)
- 人民邮电出版社微店,为您提供最全面,最专业的一站式购书服务
- 扫描二维码,访问我们的微信店铺
- 随时随地的购物、客服咨询、查询订单和物流...