pandas数据处理与分析 Python Datawhale开源 数据源代码 数据处理分析工具集 编程代码教学
运费: | ¥ 0.00-20.00 |
商品详情
书名:pandas数据处理与分析
定价:98.0
ISBN:9787**5583659
作者:耿远昊
版次:第*版
出版时间:2022-08
内容提要:
本书以Python中的pandas库为主线,介绍各类数据处理与分析方法。 本书共包含*3章,*部分介绍NumPy和pandas的基本内容;*部分介绍pandas库中的4类操作,包括索引、分组、变形和连接;第三部分介绍基于pandas库的4类数据,包括缺失数据、文本数据、分类数据和时间序列数据,并介绍这4类数据的处理方法;第四部分介绍数据观测、特征工程和性能优化的相关内容。本书以丰富的练习为特色,每章的*一节为习题,同时每章包含许多即时性的练习(练一练)。读者可通过这些练习将对数据科学的宏观认识运用到实践中。
作者简介:
耿远昊 威斯康星大学麦迪逊分校统计学硕士在读,Datawhale成员,“Joyful Pandas”开源项目作者。pandas贡献者,活跃于pandas开源社区,主要贡献涉及漏洞修复、功能实现与性能优化等方面,对pandas在数据处理与分析中的应用有丰富经验。
目录:
第 一部分 基础知识
第 *章 预备知识 2
*.* Python基础 2
*.*.* 推导式 2
*.*.2 匿名函数 4
*.*.3 打包函数 5
*.2 NumPy基础 7
*.2.* NumPy数组的构造 7
*.2.2 NumPy数组的变形 **
*.2.3 NumPy数组的切片 *5
*.2.4 广播机制 *7
*.2.5 常用函数 *9
*.3 习题 24
第 2章 pandas基础 26
2.* 文件的读取和写入 26
2.*.* 文件读取 26
2.*.2 数据写入 28
2.2 基本数据结构 29
2.2.* Series 29
2.2.2 DataFrame 30
2.3 常用基本函数 32
2.3.* 汇总函数 33
2.3.2 特征统计函数 34
2.3.3 频次函数 35
2.3.4 替换函数 36
2.3.5 排序函数 39
2.3.6 apply()函数 40
2.4 窗口 42
2.4.* 滑动窗口 42
2.4.2 扩张窗口 45
2.5 习题 46
*部分 4类操作
第3章 索引 50
3.* 单级索引 50
3.*.* DataFrame的列索引 50
3.*.2 Series的行索引 5*
3.*.3 loc索引器 52
3.*.4 iloc索引器 56
3.*.5 query()函数 57
3.*.6 索引运算 58
3.2 多级索引 59
3.2.* 多级索引及其表的结构 59
3.2.2 多级索引中的loc索引器 6*
3.2.3 多级索引的构造 65
3.3 常用索引方法 66
3.3.* 索引层的交换和删除 66
3.3.2 索引属性的修改 67
3.3.3 索引的设置与重置 70
3.3.4 索引的对齐 7*
3.4 习题 72
第4章 分组 74
4.* 分组模式及其对象 74
4.*.* 分组的一般模式 74
4.*.2 分组依据的本质 75
4.*.3 groupby对象 76
4.2 聚合函数 78
4.2.* 内置聚合函数 78
4.2.2 agg()函数 79
4.3 变换和过滤 80
4.3.* 变换函数 8*
4.3.2 组索引与过滤 82
4.4 跨列分组 83
4.5 习题 85
第5章 变形 87
5.* 长宽表的变形 87
5.*.* 长表的透视变形 88
5.*.2 宽表的逆透视变形 9*
5.2 其他变形方法 95
5.2.* 索引变形 95
5.2.2 扩张变形 98
5.3 习题 98
第6章 连接 *00
6.* 关系连接 *00
6.*.* 关系连接的基本概念 *00
6.*.2 列连接 *02
6.*.3 索引连接 *04
6.2 其他连接 *05
6.2.* 方向连接 *05
6.2.2 比较与组合 *08
6.3 习题 *09
第三部分 4类数据
第7章 缺失数据 **4
7.* 缺失值的统计和删除 **4
7.*.* 缺失信息的统计 **4
7.*.2 缺失信息的删除 **5
7.2 缺失值的填充和插值 **6
7.2.* 利用fillna() 进行填充 **6
7.2.2 插值函数 **8
7.3 Nullable类型 *20
7.3.* 缺失记号及其缺陷 *20
7.3.2 Nullable类型的性质 *22
7.3.3 缺失数据的计算和分组 *24
7.4 习题 *26
第8章 文本数据 *28
8.* str对象 *28
8.*.* str对象的设计意图 *28
8.*.2 []索引器 *29
8.*.3 string类型 *29
8.2 正则表达式基础 *3*
8.2.* 元字符 *32
8.2.2 分组捕获与反向引用 *34
8.2.3 零宽断言 *35
8.3 文本处理的5类操作 *36
8.3.* 拆分 *36
8.3.2 合并 *37
8.3.3 匹配 *38
8.3.4 替换 *39
8.3.5 提取 *40
8.4 其他字符串方法 *4*
8.4.* 字母型方法 *4*
8.4.2 数值型方法 *42
8.4.3 统计型方法 *43
8.4.4 格式型方法 *43
8.5 习题 *45
第9章 分类数据 *47
9.* cat对象 *47
9.*.* cat对象的属性 *47
9.*.2 类别的增加、删除和修改 *48
9.2 有序类别 *50
9.2.* 序的建立 *50
9.2.2 排序和比较 *50
9.3 区间类别 *52
9.3.* 利用cut()和qcut()进行区间构造 *52
9.3.2 一般区间的构造 *53
9.3.3 区间的属性与方法 *55
9.4 习题 *55
第 *0章 时间序列数据 *59
*0.* 时间戳 *60
*0.*.* 时间戳的构造与属性 *60
*0.*.2 时间戳序列的生成 *6*
*0.*.3 dt对象 *64
*0.*.4 时间戳序列的索引与切片 *66
*0.2 时间差 *67
*0.2.* 时间差序列的生成 *68
*0.2.2 时间差序列的运算 *69
*0.3 日期偏置 *70
*0.3.* Offset对象 *70
*0.3.2 采样频率 *73
*0.4 时间序列操作 *75
*0.4.* 采样频率滑窗 *75
*0.4.2 重采样 *77
*0.4.3 特殊连接 *8*
*0.5 习题 *84
第四部分 进阶实战
第 **章 数据观测 *90
**.* 可视化方法 *90
**.*.* 基本绘图 *90
**.*.2 元素控制 *98
**.*.3 子图绘制 203
**.2 数据观测方法 206
**.2.* 数据类型 206
**.2.2 数据统计量 207
**.2.3 数据分布 209
**.2.4 基于数据报告的观测 2*0
**.3 习题 2*2
第 *2章 特征工程 2*6
*2.* 单特征构造 2*6
*2.*.* 特征变换 2*6
*2.*.2 文本数据特征 223
*2.*.3 时间序列数据特征 226
*2.*.4 单特征构造的一般方法 230
*2.2 多特征构造 236
*2.2.* 分组技术 236
*2.2.2 特征降维 239
*2.3 特征选择 242
*2.3.* 基于统计量的选择 242
*2.3.2 基于模型的选择 249
*2.4 习题 255
第 *3章 性能优化 258
*3.* pandasic代码要义 258
*3.2 多进程加速 26*
*3.2.* 多进程和多线程 26*
*3.2.2 多进程的陷阱 264
*3.2.3 异步进程 268
*3.2.4 进程中的数据共享 27*
*3.2.5 在pandas中使用 多进程 282
*3.3 利用Cython加速 286
*3.3.* 初识Cython 286
*3.3.2 优化策略 288
*3.3.3 多线程加速 295
*3.3.4 Cython类及其应用 306
*3.3.5 模块构建 3**
*3.4 利用Numba加速 3*5
*3.4.* noPython模式 3*5
*3.4.2 ufunc与向量化 320
*3.4.3 jitclass及其应用 323
*3.5 习题 325
- 人民邮电出版社有限公司 (微信公众号认证)
- 人民邮电出版社微店,为您提供最全面,最专业的一站式购书服务
- 扫描二维码,访问我们的微信店铺
- 随时随地的购物、客服咨询、查询订单和物流...