文轩九月图书旗舰店店铺主页二维码
文轩九月图书旗舰店
特价好书,就在文轩网!
微信扫描二维码,访问我们的微信店铺

Python数据科学手册

109.00
运费: 免运费
库存: 70 件
Python数据科学手册 商品图0
Python数据科学手册 商品缩略图0

商品详情

Python数据科学手册

作  者:(美)杰克·万托布拉斯(Jake VanderPlas) 著;陶俊杰,陈小莉 译 著
定  价:109
出 版 社:人民邮电出版社
出版日期:2018年02月01日
页  数:448
装  帧:平装
ISBN:9787115475893

Python语言拥有大量可用于存储、操作和洞察数据的程序库,已然成为深受数据科学研究人员推崇的工具。本书以IPython、NumPy、Pandas、Matplotlib和Scikit-Learn这5个能完成数据科学大部分工作的基础工具为主,从实战角度出发,讲授如何清洗和可视化数据、如何用数据建立各种统计学或机器学习模型等常见数据科学任务,旨在让各领域与数据处理相关的工作人员具备发现问题、解决问题的能力。 ·IPython和Jupyter:为使用Python提供计算环境 ·NumPy:用ndarray实现高维数组的高效存储与操作 ·Pandas:用DataFrame实现带标签 列式数据的高效存储与操作 ·Matplotlib:实现各种数据可视化 ·Scikit-Learn:用高效整洁的Python实现重要的机器学习算法

目录

译者序xiii
前言xv
第1章IPython:超越Python1
1.1shell还是Notebook1
1.1.1启动IPythonshell2
1.1.2启动JupyterNotebook2
1.2IPython的帮助和文档3
1.2.1用符号获取文档3
1.2.2通过符号获取源代码4
1.2.3用Tab补全的方式探索模块5
1.3IPythonshell中的快捷键7
1.3.1导航快捷键7
1.3.2文本输入快捷键7
1.3.3命令历史快捷键8
1.3.4其他快捷键9
1.4IPython魔法命令9
1.4.1粘贴代码块:%paste和%cpaste9
1.4.2执行外部代码:%run10
1.4.3计算代码运行时间:%timeit11
1.4.4魔法函数的帮助:、%magic和%lsmagic11
1.5输入和输出历史12
1.5.1IPython的输入和输出对象12
1.5.2下划线快捷键和以前的输出13
1.5.3禁止输出13
1.5.4相关的魔法命令13
1.6IPython和shell命令14
1.6.1shell快速入门14
1.6.2IPython中的shell命令15
1.6.3在shell中传入或传出值15
1.7与shell相关的魔法命令16
1.8错误和调试17
1.8.1控制异常:%xmode17
1.8.2调试:当阅读轨迹追溯不足以解决问题时19
1.9代码的分析和计时21
1.9.1代码段计时:%timeit和%time22
1.9.2分析整个脚本:%prun23
1.9.3用%lprun进行逐行分析24
1.9.4用%memit和%mprun进行内存分析25
1.10IPython参考资料26
1.10.1网络资源26
1.10.2相关图书27
第2章NumPy入门28
2.1理解Python中的数据类型29
2.1.1Python整型不仅仅是一个整型30
2.1.2Python列表不仅仅是一个列表31
2.1.3Python中的固定类型数组32
2.1.4从Python列表创建数组32
2.1.5从头创建数组33
2.1.6NumPy标准数据类型34
2.2NumPy数组基础35
2.2.1NumPy数组的属性36
2.2.2数组索引:获取单个元素37
2.2.3数组切片:获取子数组38
2.2.4数组的变形41
2.2.5数组拼接和分裂42
2.3NumPy数组的计算:通用函数44
2.3.1缓慢的循环44
2.3.2通用函数介绍45
2.3.3探索NumPy的通用函数46
2.3.4通用函数特性49
2.3.5通用函数:更多的信息51
2.4聚合:*小值、*大值和其他值51
2.4.1数组值求和51
2.4.2*小值和*大值52
2.4.3示例:美国总统的身高是多少54
2.5数组的计算:广播55
2.5.1广播的介绍55
2.5.2广播的规则57
2.5.3广播的实际应用60
2.6比较、掩码和布尔逻辑61
2.6.1示例:统计下雨天数61
2.6.2和通用函数类似的比较操作62
2.6.3操作布尔数组64
2.6.4将布尔数组作为掩码66
2.7花哨的索引69
2.7.1探索花哨的索引69
2.7.2组合索引70
2.7.3示例:选择随机点71
2.7.4用花哨的索引修改值72
2.7.5示例:数据区间划分73
2.8数组的排序75
2.8.1NumPy中的快速排序:np.sort和np.argsort76
2.8.2部分排序:分隔77
2.8.3示例:K个*近邻78
2.9结构化数据:NumPy的结构化数组81
2.9.1生成结构化数组83
2.9.2更高级的复合类型84
2.9.3记录数组:结构化数组的扭转84
2.9.4关于Pandas85
第3章Pandas数据处理86
3.1安装并使用Pandas86
3.2Pandas对象简介87
3.2.1Pandas的Series对象87
3.2.2Pandas的DataFrame对象90
3.2.3Pandas的Index对象93
3.3数据取值与选择95
3.3.1Series数据选择方法95
3.3.2DataFrame数据选择方法98
3.4Pandas数值运算方法102
3.4.1通用函数:保留索引102
3.4.2通用函数:索引对齐103
3.4.3通用函数:DataFrame与Series的运算105
3.5处理缺失值106
3.5.1选择处理缺失值的方法106
3.5.2Pandas的缺失值107
3.5.3处理缺失值110
3.6层级索引113
3.6.1多级索引Series113
3.6.2多级索引的创建方法116
3.6.3多级索引的取值与切片119
3.6.4多级索引行列转换121
3.6.5多级索引的数据累计方法124
3.7合并数据集:Concat与Append操作125
3.7.1知识回顾:NumPy数组的合并126
3.7.2通过pd.concat实现简易合并126
3.8合并数据集:合并与连接129
3.8.1关系代数129
3.8.2数据连接的类型130
3.8.3设置数据合并的键132
3.8.4设置数据连接的集合操作规则134
3.8.5重复列名:suffixes参数135
3.8.6案例:美国各州的统计数据136
3.9累计与分组140
3.9.1行星数据140
3.9.2Pandas的简单累计功能141
3.9.3GroupBy:分割、应用和组合142
3.10数据透视表150
3.10.1演示数据透视表150
3.10.2手工制作数据透视表151
3.10.3数据透视表语法151
3.10.4案例:美国人的生日153
3.11向量化字符串操作157
3.11.1Pandas字符串操作简介157
3.11.2Pandas字符串方法列表159
3.11.3案例:食谱数据库163
3.12处理时间序列166
3.12.1Python的日期与时间工具166
3.12.2Pandas时间序列:用时间作索引169
3.12.3Pandas时间序列数据结构170
3.12.4时间频率与偏移量172
3.12.5重新取样、迁移和窗口173
3.12.6更多学习资料178
3.12.7案例:美国西雅图自行车统计数据的可视化179
3.13高性能Pandas:eval()与query()184
3.13.1query()与eval()的设计动机:复合代数式184
3.13.2用pandas.eval()实现高性能运算185
3.13.3用DataFrame.eval()实现列间运算187
3.13.4DataFrame.query()方法188
3.13.5性能决定使用时机189
3.14参考资料189
第4章Matplotlib数据可视化191
4.1Matplotlib常用技巧192
4.1.1导入Matplotlib192
4.1.2设置绘图样式192
4.1.3用不用show()?如何显示图形192
4.1.4将图形保存为文件194
4.2两种画图接口195
4.2.1MATLAB风格接口195
4.2.2面向对象接口196
4.3简易线形图197
4.3.1调整图形:线条的颜色与风格199
4.3.2调整图形:坐标轴上下限200
4.3.3设置图形标签203
4.4简易散点图204
4.4.1用plt.plot画散点图205
4.4.2用plt.scatter画散点图206
4.4.3plot与scatter:效率对比208
4.5可视化异常处理208
4.5.1基本误差线209
4.5.2连续误差210
4.6密度图与等高线图211
4.7频次直方图、数据区间划分和分布密度215
4.8配置图例219
4.8.1选择图例显示的元素221
4.8.2在图例中显示不同尺寸的点222
4.8.3同时显示多个图例223
4.9配置颜色条224
4.9.1配置颜色条224
4.9.2案例:手写数字228
4.10多子图230
4.10.1plt.axes:手动创建子图230
4.10.2plt.subplot:简易网格子图231
4.10.3plt.subplots:用一行代码创建网格233
4.10.4plt.GridSpec:实现更复杂的排列方式234
4.11文字与注释235
4.11.1案例:节假日对美国出生率的影响236
4.11.2坐标变换与文字位置237
4.11.3箭头与注释239
4.12自定义坐标轴刻度241
4.12.1主要刻度与次要刻度242
4.12.2隐藏刻度与标签243
4.12.3增减刻度数量244
4.12.4花哨的刻度格式245
4.12.5格式生成器与定位器小结247
4.13Matplotlib自定义:配置文件与样式表248
4.13.1手动配置图形248
4.13.2修改默认配置:rcParams249
4.13.3样式表251
4.14用Matplotlib画三维图255
4.14.1三维数据点与线256
4.14.2三维等高线图256
4.14.3线框图和曲面图258
4.14.4曲面三角剖分259
4.15用Basemap可视化地理数据261
4.15.1地图投影263
4.15.2画一个地图背景267
4.15.3在地图上画数据269
4.15.4案例:美国加州城市数据270
4.15.5案例:地表温度数据271
4.16用Seaborn做数据可视化273
4.16.1Seaborn与Matplotlib274
4.16.2Seaborn图形介绍275
4.16.3案例:探索马拉松比赛成绩数据283
4.17参考资料290
4.17.1Matplotlib资源290
4.17.2其他Python画图程序库290
第5章机器学习291
5.1什么是机器学习291
5.1.1机器学习的分类292
5.1.2机器学习应用的定性示例292
5.1.3小结299
5.2Scikit-Learn简介300
5.2.1Scikit-Learn的数据表示300
5.2.2Scikit-Learn的评估器API302
5.2.3应用:手写数字探索309
5.2.4小结313
5.3超参数与模型验证313
5.3.1什么是模型验证314
5.3.2选择模型317
5.3.3学习曲线322
5.3.4验证实践:网格搜索326
5.3.5小结327
5.4特征工程327
5.4.1分类特征327
5.4.2文本特征329
5.4.3图像特征330
5.4.4衍生特征330
5.4.5缺失值填充332
5.4.6特征管道332
5.5专题:朴素贝叶斯分类333
5.5.1贝叶斯分类333
5.5.2高斯朴素贝叶斯334
5.5.3多项式朴素贝叶斯336
5.5.4朴素贝叶斯的应用场景339
5.6专题:线性回归340
5.6.1简单线性回归340
5.6.2基函数回归342
5.6.3正则化346
5.6.4案例:预测自行车流量349
5.7专题:支持向量机353
5.7.1支持向量机的由来354
5.7.2支持向量机:边界*大化355
5.7.3案例:人脸识别363
5.7.4支持向量机总结366
5.8专题:决策树与随机森林367
5.8.1随机森林的诱因:决策树367
5.8.2评估器集成算法:随机森林371
5.8.3随机森林回归373
5.8.4案例:用随机森林识别手写数字374
5.8.5随机森林总结376
5.9专题:主成分分析376
5.9.1主成分分析简介377
5.9.2用PCA作噪音过滤383
5.9.3案例:特征脸385
5.9.4主成分分析总结387
5.10专题:流形学习388
5.10.1流形学习:“HELLO”388
5.10.2多维标度法(MDS)389
5.10.3将MDS用于流形学习391
5.10.4非线性嵌入:当MDS失败时393
5.10.5非线性流形:局部线性嵌入395
5.10.6关于流形方法的一些思考396
5.10.7示例:用Isomap处理人脸数据397
5.10.8示例:手写数字的可视化结构400
5.11专题:k-means聚类402
5.11.1k-means简介403
5.11.2k-means算法:期望*大化404
5.11.3案例409
5.12专题:高斯混合模型415
5.12.1高斯混合模型(GMM)为什么会出现:k-means算法
的缺陷415
5.12.2一般化E-M:高斯混合模型417
5.12.3将GMM用作密度估计421
5.12.4示例:用GMM生成新的数据425
5.13专题:核密度估计427
5.13.1KDE的由来:直方图428
5.13.2核密度估计的实际应用431
5.13.3示例:球形空间的KDE433
5.13.4示例:不是很朴素的贝叶斯436
5.14应用:人脸识别管道439
5.14.1HOG特征440
5.14.2HOG实战:简单人脸识别器441
5.14.3注意事项与改进方案445
5.15机器学习参考资料446
5.15.1Python中的机器学习446
5.15.2通用机器学习资源447
关于作者448
关于封面448

内容介绍

《Python数据科学手册》是对以数据深度需求为中心的科学、研究以及针对计算和统计方法的参考书。本书共五章,每章介绍一到两个Python数据科学中的重点工具包。首先从IPython和Jupyter开始,它们提供了数据科学家需要的计算环境;第 2章讲解能提供ndarray对象的NumPy,它可以用Python高效地存储和操作大型数组;第3章主要涉及提供DataFrame对象的Pandas,它可以用Python高效地存储和操作带标签的 列式数据;第4章的主角是Matplotlib,它为Python提供了许多数据可视化功能;第5章以Scikit-Learn为主,这个程序库为重要的机器学习算法提供了高效整洁的Python版实现。《Python数据科学手册》适合有编程背景,并打算将开源Python工具用作分析、操作、可视化以及学习数据的数据科学研究人员。

(美)杰克·万托布拉斯(Jake VanderPlas) 著;陶俊杰,陈小莉 译 著

Jake VanderPlas是Python科学栈的深度用户和开发人员,目前是华盛顿大学eScience学院物理科学研究院院长,研究方向为天文学。同时,他还为很多领域的科学家提供建议和咨询。

文轩九月图书旗舰店店铺主页二维码
文轩九月图书旗舰店
特价好书,就在文轩网!
扫描二维码,访问我们的微信店铺

Python数据科学手册

手机启动微信
扫一扫购买

收藏到微信 or 发给朋友

1. 打开微信,扫一扫左侧二维码

2. 点击右上角图标

点击右上角分享图标

3. 发送给朋友、分享到朋友圈、收藏

发送给朋友、分享到朋友圈、收藏

微信支付

支付宝

扫一扫购买

收藏到微信 or 发给朋友

1. 打开微信,扫一扫左侧二维码

2. 点击右上角图标

点击右上角分享图标

3. 发送给朋友、分享到朋友圈、收藏

发送给朋友、分享到朋友圈、收藏