商品详情
定价:98.0
ISBN:9787121412004
作者:朝乐门
版次:第1版
出版时间:2021-06
内容提要:
本书是为具有数据思维的数据科学、数据分析和大数据应用人群编写的Python 学习图书。本书改变了同类图书中普遍存在的“将Python 当作C/Java 来教(或学)”的现状,强调了Python 在数据分析和数据科学中的特殊语法和数据思维;同时,改变了传统图书中“先将知识点、后摆代码”的编写风格,首次将代码放在中心位置,配合*必要的文字介绍,做到主次分明、一目了然,便于学习。本书主要介绍大数据人才常用的Python 语言及第三方扩展库的基础知识、思路、方法、经验和技巧,建立了从Python 到数据分析再到数据科学的通道,形成了Python 知识、数据分析和数据科学三个知识领域融为一体的知识模式。本书既可以作为从事数据科学、数据分析和大数据应用人群的入门级系统学习图书,又可以作为相关高校数据科学与大数据技术、大数据应用与管理、信息管理和大数据应用、数据分析、信息分析等专业方向的教材。
作者简介:
朝乐门,男,1979年生,中国人民大学信息资源管理学院、数据工程与知识工程***重点实验室副教授,博士生导师。中国计算机学会信息系统专委员会委员、ACM高级会员、国际知识管理协会正式委员、全国高校大数据教育联盟大数据教材专家指导委员会委员、清华大学博士后校友会IT分会副秘书长;主持完成国家自然科学基金、国家社会科学基金等重要科学研究项目10余项;参与完成核高基、973、863、国家自然科学基金重点项目、国家社会科学基金重大项目等国家重大科研项目10余项;发表SCI/SSCI/EI/CSCI论文30余篇,软件著作权5个、发明专利3项、出版学术专著3部;获得北京市中青年骨干教师称号、国际知识管理与智力资本杰出成就奖、IBM全球卓越教师奖、Emerald/EFMD国际杰出博士论文奖、国家自然科学基金项目优秀项目、中国大数据学术创新奖、中国大数据创新百人榜单、全国大数据教育行业杰出贡献奖等多种奖励30余项。
目录:
目 录
**篇准备工作
1 为什么要学习Python,学习Python 的什么 3
2 学习Python 之前需要准备的工作.... 6
3 如何看懂和运行本书代码 8
3.1 输入部分....8
3.2 输出部分. 10
3.3 错误与异常信息 11
3.4 外部数据文件.....12
3.5 注意事项. 14
第二篇Python 基础
4 数据类型..19
4.1 查看数据类型的方法.... 20
4.2 判断数据类型的方法.....21
4.3 转换数据类型的方法.....22
4.4 特殊数据类型.....23
4.5 序列类型.26
5 变量....28
5.1 变量的定义方法.29
5.2 Python 是动态类型语言.....29
5.3 Python 是强类型语言.. 30
5.4 Python 中的变量名是引用.31
5.5 Python 中区分大小写...32
5.6 变量命名规范.....32
5.7 iPython 的特殊变量33
5.8 查看Python 关键字的方法..... 34
5.9 查看已定义的所有变量.35
5.10 删除变量.....37
6 语句书写规范39
6.1 一行一句. 40
6.2 一行多句. 40
vi
目 录
6.3 一句多行. 41
6.4 复合语句 42
6.5 空语句..... 43
7 赋值语句...44
7.1 赋值语句在Python 中的重要地位..... 45
7.2 链式赋值语句.... 45
7.3 复合赋值语句.... 46
7.4 序列的拆包式赋值.. 46
7.5 两个变量值的调换.. 47
8 注释语句..48
8.1 注释方法. 48
8.2 注意事项. 49
9 运算符50
9.1 特殊运算符...53
9.2 内置函数..57
9.3 math 模块.....58
9.4 优先级与结合方向...59
10 if 语句.61
10.1 基本语法.....61
10.2 elif 语句62
10.3 if 与三元运算....63
10.4 注意事项.... 64
11 for 语句.....66
11.1 基本语法.....67
11.2 range()函数67
11.3 注意事项.....68
12 while 语句71
12.1 基本语法.....71
12.2 注意事项.....72
13 pass 语句.74
13.1 含义 74
13.2 作用.75
14 列表...76
14.1 定义方法.....78
vii
14.2 切片操作.....79
14.3 反向遍历.....81
14.4 类型转换.....83
14.5 extend 与append 的区别.....83
14.6 列表推导式 84
14.7 插入与删除.87
14.8 常用操作函数...89
15 元组...94
15.1 定义方法.....95
15.2 主要特征.....97
15.3 基本用法.....99
15.4 应用场景.. 100
16 字符串.. 103
16.1 定义方法.. 104
16.2 主要特征.. 105
16.3 字符串的操作 106
17 序列.111
17.1 支持索引.. 112
17.2 支持切片.. 113
17.3 支持迭代.. 114
17.4 支持拆包.. 114
17.5 支持*运算 115
17.6 通用函数.. 117
18 集合 120
18.1 定义方法.. 121
18.2 主要特征.. 122
18.3 基本运算.. 123
18.4 应用场景.. 125
19 字典.126
19.1 定义方法.. 127
19.2 字典的主要特征.. 128
19.3 字典的应用场景.. 129
20 函数..... 130
20.1 内置函数...131
viii
目 录
20.2 模块函数...131
20.3 用户自定义函数...132
21 内置函数.....133
21.1 内置函数的主要特点 134
21.2 数学函数.. 134
21.3 类型函数.. 135
21.4 其他功能函数 136
22 模块函数... 141
22.1 import 模块名.... 142
22.2 import 模块名as 别名.. 143
22.3 from 模块名import 函数名..... 143
23 自定义函数..... 145
23.1 定义方法.. 147
23.2 函数中的docString. 148
23.3 调用方法.. 148
23.4 返回值 149
23.5 形参与实参.... 150
23.6 变量的可见性 152
23.7 值传递与地址传递.... 154
23.8 其他注意事项 156
24 lambda 函数....158
24.1 lambda 函数的定义方法..... 159
24.2 lambda 函数的调用方法..... 160
第三篇Python 进阶
25 迭代器与生成器....165
25.1 可迭代对象与迭代器 166
25.2 生成器与迭代器.. 167
26 模块169
26.1 导入与调用用法.. 170
26.2 查看内置模块清单的方法.... 171
27 包... 174
27.1 相关术语 .. 175
27.2 安装包 175
ix
27.3 查看已安装包 176
27.4 更新(或删除)已安装包.... 176
27.5 导入包 177
27.6 查看包的帮助 178
27.7 常用包 179
28 帮助文档... 180
28.1 help 函数. 181
28.2 docString 181
28.3 查看源代码.... 182
28.4 doc 属性... 183
28.5 dir()函数... 184
28.6 其他方法.. 186
29 异常与错误187
29.1 try/except/finally... 188
29.2 异常信息的显示模式 189
29.3 断言.... 190
30 程序调试方法..192
30.1 调试程序的基本方法 193
30.2 设置错误信息的显示方式.... 194
30.3 设置断言的方法.. 195
31 面向对象编程...197
31.1 类的定义方法 198
31.2 类中的特殊方法.. 199
31.3 类之间的继承关系.... 201
31.4 私有属性及@property 装饰器. 203
31.5 self 和cls 204
31.6 new 与init 的区别和联系... 205
32 魔术命令... 208
32.1 运行.py 文件:%run 209
32.2 统计运行时间:%timeit 与%%timeit..... 210
32.3 查看历史In 和Out 变量:%history .. 211
32.4 更改异常信息的显示模式:%xmode.. 212
32.5 调试程序:%debug. 214
32.6 程序运行的逐行统计:%prun 与%lprun 215
x
目 录
32.7 内存使用情况的统计:%memit .... 216
33 搜索路径....218
33.1 变量搜索路径 219
33.2 模块搜索路径 221
34 当前工作目录..224
34.1 显示当前工作目录的方法.... 225
34.2 更改当前工作目录的方法.... 225
34.3 读/写当前工作目录的方法.. 226
第四篇数据加工
35 随机数..229
35.1 一次生成一个数.. 230
35.2 一次生成一个随机数组.. 231
36 数组234
36.1 创建方法.. 238
36.2 主要特征.. 241
36.3 切片/读取. 243
36.4 浅拷贝和深拷贝.. 249
36.5 形状和重构.... 250
36.6 属性计算.. 254
36.7 ndarray 的计算... 256
36.8 ndarray 的元素类型. 258
36.9 插入与删除.... 259
36.10 缺失值处理.. 260
36.11 ndarray 的广播规则..... 261
36.12 ndarray 的排序. 262
37 Series ....265
37.1 Series 的主要特点.... 266
37.2 Series 的定义方法.... 266
37.3 Series 的操作方法.... 269
38 DataFrame.274
38.1 DataFrame 的创建方法. 277
38.2 查看行或列.... 278
38.3 引用行或列.... 279
xi
38.4 index 操作.... 282
38.5 删除或过滤行/列 284
38.6 算术运算.. 289
38.7 大小比较运算 295
38.8 统计信息.. 296
38.9 排序.... 298
38.10 导入/导出.... 300
38.11 缺失数据处理.... 301
38.12 分组统计 307
39 日期与时间..... 310
39.1 常用包与模块 311
39.2 时间和日期类型的定义.. 311
39.3 转换方法.. 313
39.4 显示系统当前时间.... 315
39.5 计算时差.. 316
39.6 时间索引.. 316
39.7 period_range()函数. 319
40 可视化. 320
40.1 Matplotlib 可视化... 322
40.2 改变图的属性 325
40.3 改变图的类型 328
40.4 改变图的坐标轴的取值范围 329
40.5 去掉边界的空白.. 332
40.6 在同一个坐标上画两个图.... 332
40.7 多图显示.. 333
40.8 图的保存.. 334
40.9 散点图的画法 335
40.10 Pandas 可视化.. 336
40.11 Seaborn 可视化 339
40.12 数据可视化实战 342
41 Web 爬取....345
41.1 Scrapy 的下载与安装.... 348
41.2 Scrapy Shell 的基本原理.... 349
41.3 Scrapy Shell 的应用 350
xii
目 录
41.4 自定义Spider 类 352
41.5 综合运用.. 359
第五篇数据分析
42 统计分析....367
42.1 业务理解.. 369
42.2 数据读入.. 369
42.3 数据理解.. 370
42.4 数据准备.. 371
42.5 模型类型的选择与超级参数的设置 373
42.6 训练具体模型及查看其统计量.. 374
42.7 拟合优度评价 376
42.8 建模前提假定的讨论 376
42.9 模型的优化与重新选择.. 378
42.10 模型的应用.. 382
43 机器学习....383
43.1 机器学习的业务理解 384
43.2 数据读入.. 385
43.3 数据理解.. 386
43.4 数据准备.. 389
43.5 算法选择及其超级参数的设置.. 392
43.6 具体模型的训练.. 393
43.7 用模型进行预测.. 393
43.8 模型评价.. 394
43.9 模型的应用与优化.... 395
44 自然语言处理..399
44.1 自然语言处理的常用包.. 400
44.2 自然语言处理的包导入及设置.. 400
44.3 数据读入.. 401
44.4 分词处理.. 402
44.5 自定义词汇.... 403
44.6 停用词处理.... 407
44.7 词性分布分析 408
44.8 高频词分析.... 411
xiii
44.9 词频统计.. 412
44.10 关键词分析.. 414
44.11 生成词云 415
45 人脸识别与图像分析. 418
45.1 安装并导入opencv-python 包... 419
45.2 读取图像文件 419
45.3 将RGB 图像转换为灰度图. 419
45.4 人脸识别与绘制长方形.. 420
45.5 图像显示.. 421
45.6 图像保存.. 422
第六篇大数据处理
46 Spark 编程.425
46.1 导入pyspark 包. 427
46.2 SparkSession 及其创建 427
46.3 Spark 数据抽象类型 430
46.4 Spark DataFrame 操作. 433
46.5 SQL 编程.. 437
46.6 DataFrame 的可视化..... 440
46.7 Spark 机器学习.. 442
46.7.1 创建Spark Session .. 443
46.7.2 读入数据.... 443
46.7.3 数据理解.... 444
46.7.4 数据准备.... 444
46.7.5 模型训练.... 446
46.7.6 模型评价.... 446
46.7.7 预测 447
47 基于Spark 和MongoDB 的大数据分析..... 449
47.1 数据准备.. 450
47.2 数据读入.. 452
47.3 数据理解.. 453
47.4 数据准备.. 455
47.5 模型训练.. 458
xiv
目 录
47.6 模型评价.. 459
47.7 模型应用.. 461
第七篇 继续学习
48 Python 初学者常见错误及纠正方法.465
48.1 NameError: name ‘xxxx‘ is not defined ..... 465
48.2 IndentationError: unexpected indent ... 466
48.3 SyntaxError: invalid character in identifier .... 467
48.4 TypeError: ‘XXXX‘ object does not support item assignment .... 468
48.5 TypeError: unsupported operand type(s) for XXXX ..... 468
48.6 IndexError: list index out of range . 469
48.7 TypeError: type() takes XXXX arguments ..... 469
48.8 SyntaxError: unexpected EOF while parsing 470
48.9 ModuleNotFoundError: No module named XXXX .. 471
48.10 TypeError: ‘ list‘ object is not callable .... 472
48.11 SyntaxError: invalid syntax 473
48.12 AttributeError:XXXX object has no attribute XXXX . 474
48.13 TypeError: XXXX object is not an iterator... 475
48.14 FileNotFoundError: File XXXX does not exist. 476
48.15 IndexError: too many indices for array .... 478
48.16 TypeError: Required argument XXXX not found .. 479
48.17 TypeError: an XXXX is required (got type YYYY) 480
48.18 ValueError: Wrong number of items passed XXXX, placement
implies YYYY .. 481
49 Python 数据分析和数据科学面试题.483
50 继续学习本书内容的推荐资源... 494
50.1 重要网站.. 494
50.2 重要图书.. 494
50.3 常用模块与工具包.... 495
50.4 常用统计模型 495
50.5 核心机器学习算法.... 496
50.6 继续学习数据科学的建议路线图.....497
参考文献 501
- 电子工业出版社有限公司
- 电子工业出版社有限公司有赞官方供货商,为客户提供一流的知识产品及服务。
- 扫描二维码,访问我们的微信店铺