商品详情
书名:R数据科学(第2版)
定价:159.8
ISBN:9787115682642
作者:[新西兰]哈德利·威克姆(Hadley Wickham),[美]米内·切廷卡亚-郎德尔(Mine ?etinkaya-Rundel),[美]加
版次:第2版
出版时间:2025-12
内容提要:
本书是数据科学与数据分析领域*作品,由R社区领军人物Hadley Wickham领衔打造。第2版*更新,结合tidyverse及RStudio,通过实战示例和练习,帮助读者快速掌握数据处理、可视化与编程等核心数据科学技能。全书分为六大部分——全流程、可视化、变换、导入、编程与交流——完整覆盖数据科学全流程。 本书适合统计、数据科学和机器学习专业的学生,以及数据分析师、数据科学家及其他有数据处理与可视化需求的读者。
作者简介:
哈德利·威克姆(Hadley Wickham) RStudio*科学家,统计学家,斯坦福大学、奥克兰大学、莱斯大学兼职统计学教授。已被下载数百万次的ggplot2等多款知名R包的*,一直致力于让普罗大众更容易上手数据分析,被R社区誉为“改变了R的人”。另著有《R包开发》等书。 米内·切廷卡亚?伦德尔(Mine ?etinkaya-Rundel) 杜克大学统计科学系实践教授、R 数据科学教育*。她专注于统计学和数据科学教育,参与编写多部开源教材,如《OpenIntro Statistics》,致力于让学习统计和 R 语言变得轻松有趣。 加勒特·格罗勒芒德(Garrett Grolemund) RStudio 顾问、R 语言教育*。Garrett 擅长将复杂的数据科学概念以直观、有趣的方式呈现,是全球数据科学学习者熟悉的 R 教师和教材作者。
目录:
目录
译者序 xix
引言 xxi
*部分 全流程
第1章 数据可视化 3
1.1 引言 3
1.2 起步阶段 4
1.2.1 penguins数据框 4
1.2.2 *目标 6
1.2.3 创建ggplot图形 6
1.2.4 添加美学和图层 9
1.2.5 练习题 13
1.3 ggplot2调用 15
1.4 可视化分布 15
1.4.1 分类变量 15
1.4.2 数值变量 17
1.4.3 练习题 18
1.5 可视化关系 19
1.5.1 数值变量与分类变量 19
1.5.2 两个分类变量 21
1.5.3 两个数值变量 23
1.5.4 三个及三个以上变量 23
1.5.5 练习题 24
1.6 保存图形 25
1.7 常见问题 26
1.8 小结 26
第2章 工作流:基础 27
2.1 编程基础 27
2.2 注释 28
2.3 命名对象 29
2.4 调用函数 29
2.5 练习题 30
2.6 小结 31
第3章 数据变换 32
3.1 引言 32
3.1.1 准备工作 32
3.1.2 nycflights13 33
3.1.3 dplyr基础 34
3.2 操作行 34
3.2.1 filter() 35
3.2.2 常见错误 36
3.2.3 arrange() 37
3.2.4 distinct() 37
3.2.5 练习题 39
3.3 操作列 39
3.3.1 mutate() 39
3.3.2 select() 41
3.3.3 rename() 42
3.3.4 relocate() 42
3.3.5 练习题 43
3.4 管道 43
3.5 分组 45
3.5.1 group_by() 45
3.5.2 summarize() 46
3.5.3 slice_*函数 47
3.5.4 根据多个变量分组 48
3.5.5 解除分组 48
3.5.6 .by参数 49
3.5.7 练习题 50
3.6 案例研究:聚合与样本量 51
3.7 小结 53
第4章 工作流:代码风格 54
4.1 命名 55
4.2 空格 55
4.3 管道 56
4.4 ggplot2 57
4.5 分节注释 58
4.6 练习题 58
4.7 小结 59
第5章 数据整理 60
5.1 引言 60
5.2 整洁数据 61
5.3 转换为长数据 63
5.3.1 列名中包含变量值 64
5.3.2 转换为长数据是如何实现的 67
5.3.3 列名中包含多个变量值 68
5.3.4 列名中包含变量值和变量名 70
5.4 转换为宽数据 71
5.5 小结 75
第6章 工作流:脚本和项目 76
6.1 脚本 76
6.1.1 运行代码 77
6.1.2 RStudio诊断 78
6.1.3 保存与命名 78
6.2 项目 79
6.2.1 分析的真实源头是什么 80
6.2.2 如何存放分析项目 81
6.2.3 RStudio项目 81
6.2.4 相对路径与*路径 83
6.3 练习题 83
6.4 小结 84
第7章 数据导入 85
7.1 引言 85
7.2 从文件中读取数据 85
7.2.1 实用建议 86
7.2.2 其他参数 88
7.2.3 其他文件类型 90
7.2.4 练习题 90
7.3 控制列类型 91
7.3.1 猜测类型 91
7.3.2 缺失值、列类型与问题 92
7.3.3 列类型 93
7.4 从多个文件中读取数据 94
7.5 写入文件 95
7.6 数据录入 96
7.7 小结 97
第8章 工作流:获取帮助 98
8.1 Google是良师益友 98
8.2 创建*小可复现示例 98
8.3 投资自己 100
8.4 小结 100
*部分 可视化
第9章 图层 103
9.1 引言 103
9.2 美学映射 104
9.3 几何对象 107
9.4 分面 113
9.5 统计变换 115
9.6 位置调整 119
9.7 坐标系 124
9.8 分层图形语法 125
9.9 小结 126
第10章 探索性数据分析 127
10.1 引言 127
10.2 问题 128
10.3 变动 128
10.3.1 正常的取值 129
10.3.2 异常的取值 130
10.3.3 练习题 132
10.4 异常的取值 133
10.5 协变 135
10.5.1 分类变量和数值变量 135
10.5.2 两个分类变量 139
10.5.3 两个数值变量 141
10.6 模式和模型 144
10.7 小结 146
第11章 呈现 147
11.1 引言 147
11.2 标签 148
11.3 标注 150
11.4 标度 155
11.4.1 默认标度 155
11.4.2 坐标轴刻度和图例标签 155
11.4.3 图例布局 158
11.4.4 替换标度 160
11.4.5 缩放 165
11.4.6 练习题 167
11.5 主题 168
11.6 布局 171
11.7 小结 174
第三部分 变换
第12章 逻辑向量 177
12.1 引言 177
12.2 比较 178
12.2.1 浮点数比较 179
12.2.2 缺失值 179
12.2.3 is.na() 180
12.2.4 练习题 181
12.3 布尔运算 181
12.3.1 缺失值 182
12.3.2 运算符优先级 182
12.3.3 %in% 183
12.3.4 练习题 184
12.4 汇总函数 184
12.4.1 逻辑汇总 184
12.4.2 逻辑向量的数值汇总 185
12.4.3 逻辑子集 185
12.4.4 练习题 186
12.5 条件变换 187
12.5.1 if_else() 187
12.5.2 case_when() 188
12.5.3 兼容类型 189
12.5.4 练习题 190
12.6 小结 190
第13章 数值 191
13.1 引言 191
13.2 生成数值 191
13.3 计数 192
13.4 数值变换 194
13.4.1 算术和循环补齐规则 194
13.4.2 *小值和*值 196
13.4.3 模运算 196
13.4.4 对数函数 198
13.4.5 四舍五入 198
13.4.6 将数值切割成范围数据 199
13.4.7 累积与滚动聚合 200
13.4.8 练习题 200
13.5 一般变换 200
13.5.1 排名 200
13.5.2 偏移 201
13.5.3 连续分组标识 202
13.5.4 练习题 203
13.6 数值汇总函数 204
13.6.1 中心 204
13.6.2 *小值、*值和分位数 205
13.6.3 分散度 206
13.6.4 分布 206
13.6.5 位置 208
13.6.6 使用mutate() 209
13.6.7 练习题 209
13.7 小结 209
第14章 字符串 210
14.1 引言 210
14.2 创建字符串 211
14.2.1 转义 211
14.2.2 原始字符串 212
14.2.3 其他特殊字符 212
14.2.4 练习题 213
14.3 创建多个字符串 213
14.3.1 str_c() 213
14.3.2 str_glue() 214
14.3.3 str_flatten() 214
14.3.4 练习题 215
14.4 从字符串中提取数据 215
14.4.1 拆分为多行 216
14.4.2 拆分为多列 217
14.4.3 诊断变宽问题 218
14.5 字母 220
14.5.1 长度 220
14.5.2 子集 221
14.5.3 练习题 222
14.6 非英语文本 222
14.6.1 编码 222
14.6.2 字母变体 224
14.6.3 依赖区域设置的函数 224
14.7 小结 225
第15章 正则表达式 226
15.1 引言 226
15.2 模式基础 227
15.3 关键函数 229
15.3.1 检测匹配 229
15.3.2 计算匹配次数 230
15.3.3 修改匹配项 231
15.3.4 提取变量 232
15.3.5 练习题 233
15.4 模式细节 233
15.4.1 转义 233
15.4.2 锚点 234
15.4.3 字符类 235
15.4.4 量词 236
15.4.5 运算符优先级和括号 237
15.4.6 分组和捕获 237
15.4.7 练习题 239
15.5 模式控制 239
15.5.1 正则表达式标志 239
15.5.2 固定匹配 241
15.6 实践 241
15.6.1 检查当前工作 241
15.6.2 布尔运算 242
15.6.3 使用代码创建模式 244
15.6.4 练习题 245
15.7 正则表达式的其他使用场景 245
15.7.1 tidyverse 245
15.7.2 基础R 246
15.8 小结 246
第16章 因子 247
16.1 引言 247
16.2 因子基础 247
16.3 综合社会调查 249
16.4 修改因子顺序 250
16.5 修改因子水平 254
16.6 有序因子 257
16.7 小结 257
第17章 日期和时间 258
17.1 引言 258
17.2 创建日期/时间 259
17.2.1 导入过程 259
17.2.2 从字符串中提取 261
17.2.3 从多列组件创建 262
17.2.4 从其他类型转换 264
17.2.5 练习题 264
17.3 日期时间组件 265
17.3.1 获取组件 265
17.3.2 取整 268
17.3.3 修改组件 270
17.3.4 练习题 271
17.4 时间跨度 271
17.4.1 持续时间 271
17.4.2 时段 273
17.4.3 区间 274
17.4.4 练习题 275
17.5 时区 275
17.6 小结 277
第18章 缺失值 278
18.1 引言 278
18.2 显式缺失值 278
18.2.1 末次观测值前推 278
18.2.2 固定值 279
18.2.3 NaN 279
18.3 隐式缺失值 280
18.3.1 长宽数据转换 280
18.3.2 补全 281
18.3.3 连接 282
18.3.4 练习题 282
18.4 因子和空组 282
18.5 小结 285
第19章 连接 286
19.1 引言 286
19.2 键 286
19.2.1 主键和外键 287
19.2.2 检查主键 289
19.2.3 代理键 289
19.2.4 练习题 290
19.3 基本连接 291
19.3.1 修改连接 291
19.3.2 指定连接键 293
19.3.3 过滤连接 294
19.3.4 练习题 296
19.4 连接是如何工作的 296
19.4.1 行匹配 299
19.4.2 过滤连接 300
19.5 非等值连接 301
19.5.1 交叉连接 302
19.5.2 不等连接 303
19.5.3 滚动连接 304
19.5.4 重叠连接 305
19.5.5 练习题 306
19.6 小结 307
第四部分 导入
第20章 电子表格 311
20.1 引言 311
20.2 Excel 311
20.2.1 准备工作 311
20.2.2 入门 312
20.2.3 读取Excel 312
20.2.4 读取工作表 315
20.2.5 读取工作表的一部分 317
20.2.6 数据类型 318
20.2.7 写入Excel 319
20.2.8 格式化输出 320
20.2.9 练习题 321
20.3 Google表格 323
20.3.1 准备工作 323
20.3.2 入门 323
20.3.3 读取Google表格 324
20.3.4 写入Google表格 326
20.3.5 身份验证 326
20.3.6 练习题 326
20.4 小结 327
第21章 数据库 328
21.1 引言 328
21.2 数据库基础 329
21.3 连接到数据库 329
21.3.1 本书的选择 330
21.3.2 加载一些数据 330
21.3.3 DBI基础 331
21.4 dbplyr基础 332
21.5 SQL 333
21.5.1 SQL基础 334
21.5.2 SELECT 335
21.5.3 FROM 336
21.5.4 GROUP BY 336
21.5.5 WHERE 337
21.5.6 ORDER BY 338
21.5.7 子查询 339
21.5.8 连接 339
21.5.9 其他动词 340
21.5.10 练习题 340
21.6 函数翻译 341
21.7 小结 343
第22章 arrow 344
22.1 引言 344
22.2 获取数据 345
22.3 查看数据 345
22.4 Parquet格式 346
22.4.1 Parquet的优势 347
22.4.2 分区 347
22.4.3 重写西雅图公共图书馆数据 347
22.5 使用dplyr和arrow 348
22.5.1 性能 349
22.5.2 其他优势 350
22.6 小结 350
第23章 层级数据 351
23.1 引言 351
23.2 列表 351
23.2.1 层级结构 352
23.2.2 列表列 354
23.3 展开 356
23.3.1 unnest_wider() 356
23.3.2 unnest_longer() 357
23.3.3 不一致的类型 357
23.3.4 其他函数 358
23.3.5 练习题 358
23.4 案例研究 359
23.4.1 非常宽的数据 359
23.4.2 关系数据 361
23.4.3 深层嵌套的数据 363
23.4.4 练习题 366
23.5 JSON 367
23.5.1 数据类型 367
23.5.2 jsonlite 367
23.5.3 开始矩形化过程 368
23.5.4 练习题 369
23.6 小结 370
第24章 网页爬取 371
24.1 引言 371
24.2 网页爬取的伦理和法律问题 372
24.2.1 服务条款 372
24.2.2 个人可识别信息 372
24.2.3 版权 373
24.3 HTML基础知识 373
24.3.1 元素 374
24.3.2 属性 374
24.4 提取数据 374
24.4.1 定位元素 375
24.4.2 嵌套选择 376
24.4.3 文本和属性 377
24.4.4 表格 378
24.5 写出正确的选择器 378
24.6 整合运用 379
24.6.1 星球大战 379
24.6.2 IMDb*电影 381
24.7 动态网页 383
24.8 小结 384
第五部分 编程
第25章 函数 387
25.1 引言 387
25.2 向量函数 388
25.2.1 编写函数 388
25.2.2 改进函数 390
25.2.3 修改函数 390
25.2.4 汇总函数 391
25.2.5 练习题 392
25.3 数据框函数 393
25.3.1 间接引用与整洁求值 393
25.3.2 何时使用间接引用 394
25.3.3 常用范例 395
25.3.4 数据屏蔽与整洁选择 397
25.3.5 练习题 398
25.4 图形函数 399
25.4.1 更多变量 400
25.4.2 结合其他tidyverse函数 402
25.4.3 添加标签 403
25.4.4 练习题 404
25.5 编程风格 404
25.6 小结 406
第26章 迭代 407
26.1 引言 407
26.2 修改多列 408
26.2.1 使用.cols选择列 408
26.2.2 调用单个函数 409
26.2.3 调用多个函数 410
26.2.4 列名 411
26.2.5 筛选行 412
26.2.6 在函数中使用across() 413
26.2.7 across()与pivot_longer() 414
26.2.8 练习题 416
26.3 批量读取文件 416
26.3.1 列出目录中的文件 417
26.3.2 结果列表 417
26.3.3 purrr::map()与list_rbind() 418
26.3.4 路径中的数据 419
26.3.5 保存结果 421
26.3.6 多次简单迭代 421
26.3.7 异质数据 422
26.3.8 处理失败情况 423
26.4 批量保存结果 424
26.4.1 写入数据库 424
26.4.2 写入多个CSV文件 426
26.4.3 保存图形 427
26.5 小结 428
第27章 基础R应用指南 429
27.1 引言 429
27.2 用[取子集 430
27.2.1 对向量取子集 430
27.2.2 对数据框取子集 431
27.2.3 dplyr中的等同操作 432
27.2.4 练习题 433
27.3 用$和[[取内容 433
27.3.1 对于data.frame 433
27.3.2 对于tibble 434
27.3.3 对于列表 435
27.3.4 练习题 436
27.4 apply函数族 436
27.5 for循环 438
27.6 基础绘图 439
27.7 小结 440
第六部分 交流
第28章 Quarto 443
28.1 引言 443
28.2 Quarto基础 444
28.3 可视化编辑模式 447
28.4 源码编辑模式 449
28.5 代码块 450
28.5.1 代码块标签 451
28.5.2 代码块选项 452
28.5.3 全局选项 453
28.5.4 行内代码 453
28.5.5 练习题 454
28.6 图像 454
28.6.1 图像大小调整 454
28.6.2 其他重要选项 456
28.6.3 练习题 456
28.7 表格 457
28.8 缓存 458
28.9 错误调试 459
28.10 YAML头 460
28.10.1 自包含文档 460
28.10.2 参数 460
28.10.3 引用和参考文献 461
28.11 工作流 462
28.12 小结 463
第29章 Quarto格式 465
29.1 引言 465
29.2 输出选项 465
29.3 文档 466
29.4 演示文稿 467
29.5 交互性 467
29.5.1 htmlwidgets 467
29.5.2 Shiny 468
29.6 网站和图书 469
29.7 其他格式 470
29.8 小结 471
定价:159.8
ISBN:9787115682642
作者:[新西兰]哈德利·威克姆(Hadley Wickham),[美]米内·切廷卡亚-郎德尔(Mine ?etinkaya-Rundel),[美]加
版次:第2版
出版时间:2025-12
内容提要:
本书是数据科学与数据分析领域*作品,由R社区领军人物Hadley Wickham领衔打造。第2版*更新,结合tidyverse及RStudio,通过实战示例和练习,帮助读者快速掌握数据处理、可视化与编程等核心数据科学技能。全书分为六大部分——全流程、可视化、变换、导入、编程与交流——完整覆盖数据科学全流程。 本书适合统计、数据科学和机器学习专业的学生,以及数据分析师、数据科学家及其他有数据处理与可视化需求的读者。
作者简介:
哈德利·威克姆(Hadley Wickham) RStudio*科学家,统计学家,斯坦福大学、奥克兰大学、莱斯大学兼职统计学教授。已被下载数百万次的ggplot2等多款知名R包的*,一直致力于让普罗大众更容易上手数据分析,被R社区誉为“改变了R的人”。另著有《R包开发》等书。 米内·切廷卡亚?伦德尔(Mine ?etinkaya-Rundel) 杜克大学统计科学系实践教授、R 数据科学教育*。她专注于统计学和数据科学教育,参与编写多部开源教材,如《OpenIntro Statistics》,致力于让学习统计和 R 语言变得轻松有趣。 加勒特·格罗勒芒德(Garrett Grolemund) RStudio 顾问、R 语言教育*。Garrett 擅长将复杂的数据科学概念以直观、有趣的方式呈现,是全球数据科学学习者熟悉的 R 教师和教材作者。
目录:
目录
译者序 xix
引言 xxi
*部分 全流程
第1章 数据可视化 3
1.1 引言 3
1.2 起步阶段 4
1.2.1 penguins数据框 4
1.2.2 *目标 6
1.2.3 创建ggplot图形 6
1.2.4 添加美学和图层 9
1.2.5 练习题 13
1.3 ggplot2调用 15
1.4 可视化分布 15
1.4.1 分类变量 15
1.4.2 数值变量 17
1.4.3 练习题 18
1.5 可视化关系 19
1.5.1 数值变量与分类变量 19
1.5.2 两个分类变量 21
1.5.3 两个数值变量 23
1.5.4 三个及三个以上变量 23
1.5.5 练习题 24
1.6 保存图形 25
1.7 常见问题 26
1.8 小结 26
第2章 工作流:基础 27
2.1 编程基础 27
2.2 注释 28
2.3 命名对象 29
2.4 调用函数 29
2.5 练习题 30
2.6 小结 31
第3章 数据变换 32
3.1 引言 32
3.1.1 准备工作 32
3.1.2 nycflights13 33
3.1.3 dplyr基础 34
3.2 操作行 34
3.2.1 filter() 35
3.2.2 常见错误 36
3.2.3 arrange() 37
3.2.4 distinct() 37
3.2.5 练习题 39
3.3 操作列 39
3.3.1 mutate() 39
3.3.2 select() 41
3.3.3 rename() 42
3.3.4 relocate() 42
3.3.5 练习题 43
3.4 管道 43
3.5 分组 45
3.5.1 group_by() 45
3.5.2 summarize() 46
3.5.3 slice_*函数 47
3.5.4 根据多个变量分组 48
3.5.5 解除分组 48
3.5.6 .by参数 49
3.5.7 练习题 50
3.6 案例研究:聚合与样本量 51
3.7 小结 53
第4章 工作流:代码风格 54
4.1 命名 55
4.2 空格 55
4.3 管道 56
4.4 ggplot2 57
4.5 分节注释 58
4.6 练习题 58
4.7 小结 59
第5章 数据整理 60
5.1 引言 60
5.2 整洁数据 61
5.3 转换为长数据 63
5.3.1 列名中包含变量值 64
5.3.2 转换为长数据是如何实现的 67
5.3.3 列名中包含多个变量值 68
5.3.4 列名中包含变量值和变量名 70
5.4 转换为宽数据 71
5.5 小结 75
第6章 工作流:脚本和项目 76
6.1 脚本 76
6.1.1 运行代码 77
6.1.2 RStudio诊断 78
6.1.3 保存与命名 78
6.2 项目 79
6.2.1 分析的真实源头是什么 80
6.2.2 如何存放分析项目 81
6.2.3 RStudio项目 81
6.2.4 相对路径与*路径 83
6.3 练习题 83
6.4 小结 84
第7章 数据导入 85
7.1 引言 85
7.2 从文件中读取数据 85
7.2.1 实用建议 86
7.2.2 其他参数 88
7.2.3 其他文件类型 90
7.2.4 练习题 90
7.3 控制列类型 91
7.3.1 猜测类型 91
7.3.2 缺失值、列类型与问题 92
7.3.3 列类型 93
7.4 从多个文件中读取数据 94
7.5 写入文件 95
7.6 数据录入 96
7.7 小结 97
第8章 工作流:获取帮助 98
8.1 Google是良师益友 98
8.2 创建*小可复现示例 98
8.3 投资自己 100
8.4 小结 100
*部分 可视化
第9章 图层 103
9.1 引言 103
9.2 美学映射 104
9.3 几何对象 107
9.4 分面 113
9.5 统计变换 115
9.6 位置调整 119
9.7 坐标系 124
9.8 分层图形语法 125
9.9 小结 126
第10章 探索性数据分析 127
10.1 引言 127
10.2 问题 128
10.3 变动 128
10.3.1 正常的取值 129
10.3.2 异常的取值 130
10.3.3 练习题 132
10.4 异常的取值 133
10.5 协变 135
10.5.1 分类变量和数值变量 135
10.5.2 两个分类变量 139
10.5.3 两个数值变量 141
10.6 模式和模型 144
10.7 小结 146
第11章 呈现 147
11.1 引言 147
11.2 标签 148
11.3 标注 150
11.4 标度 155
11.4.1 默认标度 155
11.4.2 坐标轴刻度和图例标签 155
11.4.3 图例布局 158
11.4.4 替换标度 160
11.4.5 缩放 165
11.4.6 练习题 167
11.5 主题 168
11.6 布局 171
11.7 小结 174
第三部分 变换
第12章 逻辑向量 177
12.1 引言 177
12.2 比较 178
12.2.1 浮点数比较 179
12.2.2 缺失值 179
12.2.3 is.na() 180
12.2.4 练习题 181
12.3 布尔运算 181
12.3.1 缺失值 182
12.3.2 运算符优先级 182
12.3.3 %in% 183
12.3.4 练习题 184
12.4 汇总函数 184
12.4.1 逻辑汇总 184
12.4.2 逻辑向量的数值汇总 185
12.4.3 逻辑子集 185
12.4.4 练习题 186
12.5 条件变换 187
12.5.1 if_else() 187
12.5.2 case_when() 188
12.5.3 兼容类型 189
12.5.4 练习题 190
12.6 小结 190
第13章 数值 191
13.1 引言 191
13.2 生成数值 191
13.3 计数 192
13.4 数值变换 194
13.4.1 算术和循环补齐规则 194
13.4.2 *小值和*值 196
13.4.3 模运算 196
13.4.4 对数函数 198
13.4.5 四舍五入 198
13.4.6 将数值切割成范围数据 199
13.4.7 累积与滚动聚合 200
13.4.8 练习题 200
13.5 一般变换 200
13.5.1 排名 200
13.5.2 偏移 201
13.5.3 连续分组标识 202
13.5.4 练习题 203
13.6 数值汇总函数 204
13.6.1 中心 204
13.6.2 *小值、*值和分位数 205
13.6.3 分散度 206
13.6.4 分布 206
13.6.5 位置 208
13.6.6 使用mutate() 209
13.6.7 练习题 209
13.7 小结 209
第14章 字符串 210
14.1 引言 210
14.2 创建字符串 211
14.2.1 转义 211
14.2.2 原始字符串 212
14.2.3 其他特殊字符 212
14.2.4 练习题 213
14.3 创建多个字符串 213
14.3.1 str_c() 213
14.3.2 str_glue() 214
14.3.3 str_flatten() 214
14.3.4 练习题 215
14.4 从字符串中提取数据 215
14.4.1 拆分为多行 216
14.4.2 拆分为多列 217
14.4.3 诊断变宽问题 218
14.5 字母 220
14.5.1 长度 220
14.5.2 子集 221
14.5.3 练习题 222
14.6 非英语文本 222
14.6.1 编码 222
14.6.2 字母变体 224
14.6.3 依赖区域设置的函数 224
14.7 小结 225
第15章 正则表达式 226
15.1 引言 226
15.2 模式基础 227
15.3 关键函数 229
15.3.1 检测匹配 229
15.3.2 计算匹配次数 230
15.3.3 修改匹配项 231
15.3.4 提取变量 232
15.3.5 练习题 233
15.4 模式细节 233
15.4.1 转义 233
15.4.2 锚点 234
15.4.3 字符类 235
15.4.4 量词 236
15.4.5 运算符优先级和括号 237
15.4.6 分组和捕获 237
15.4.7 练习题 239
15.5 模式控制 239
15.5.1 正则表达式标志 239
15.5.2 固定匹配 241
15.6 实践 241
15.6.1 检查当前工作 241
15.6.2 布尔运算 242
15.6.3 使用代码创建模式 244
15.6.4 练习题 245
15.7 正则表达式的其他使用场景 245
15.7.1 tidyverse 245
15.7.2 基础R 246
15.8 小结 246
第16章 因子 247
16.1 引言 247
16.2 因子基础 247
16.3 综合社会调查 249
16.4 修改因子顺序 250
16.5 修改因子水平 254
16.6 有序因子 257
16.7 小结 257
第17章 日期和时间 258
17.1 引言 258
17.2 创建日期/时间 259
17.2.1 导入过程 259
17.2.2 从字符串中提取 261
17.2.3 从多列组件创建 262
17.2.4 从其他类型转换 264
17.2.5 练习题 264
17.3 日期时间组件 265
17.3.1 获取组件 265
17.3.2 取整 268
17.3.3 修改组件 270
17.3.4 练习题 271
17.4 时间跨度 271
17.4.1 持续时间 271
17.4.2 时段 273
17.4.3 区间 274
17.4.4 练习题 275
17.5 时区 275
17.6 小结 277
第18章 缺失值 278
18.1 引言 278
18.2 显式缺失值 278
18.2.1 末次观测值前推 278
18.2.2 固定值 279
18.2.3 NaN 279
18.3 隐式缺失值 280
18.3.1 长宽数据转换 280
18.3.2 补全 281
18.3.3 连接 282
18.3.4 练习题 282
18.4 因子和空组 282
18.5 小结 285
第19章 连接 286
19.1 引言 286
19.2 键 286
19.2.1 主键和外键 287
19.2.2 检查主键 289
19.2.3 代理键 289
19.2.4 练习题 290
19.3 基本连接 291
19.3.1 修改连接 291
19.3.2 指定连接键 293
19.3.3 过滤连接 294
19.3.4 练习题 296
19.4 连接是如何工作的 296
19.4.1 行匹配 299
19.4.2 过滤连接 300
19.5 非等值连接 301
19.5.1 交叉连接 302
19.5.2 不等连接 303
19.5.3 滚动连接 304
19.5.4 重叠连接 305
19.5.5 练习题 306
19.6 小结 307
第四部分 导入
第20章 电子表格 311
20.1 引言 311
20.2 Excel 311
20.2.1 准备工作 311
20.2.2 入门 312
20.2.3 读取Excel 312
20.2.4 读取工作表 315
20.2.5 读取工作表的一部分 317
20.2.6 数据类型 318
20.2.7 写入Excel 319
20.2.8 格式化输出 320
20.2.9 练习题 321
20.3 Google表格 323
20.3.1 准备工作 323
20.3.2 入门 323
20.3.3 读取Google表格 324
20.3.4 写入Google表格 326
20.3.5 身份验证 326
20.3.6 练习题 326
20.4 小结 327
第21章 数据库 328
21.1 引言 328
21.2 数据库基础 329
21.3 连接到数据库 329
21.3.1 本书的选择 330
21.3.2 加载一些数据 330
21.3.3 DBI基础 331
21.4 dbplyr基础 332
21.5 SQL 333
21.5.1 SQL基础 334
21.5.2 SELECT 335
21.5.3 FROM 336
21.5.4 GROUP BY 336
21.5.5 WHERE 337
21.5.6 ORDER BY 338
21.5.7 子查询 339
21.5.8 连接 339
21.5.9 其他动词 340
21.5.10 练习题 340
21.6 函数翻译 341
21.7 小结 343
第22章 arrow 344
22.1 引言 344
22.2 获取数据 345
22.3 查看数据 345
22.4 Parquet格式 346
22.4.1 Parquet的优势 347
22.4.2 分区 347
22.4.3 重写西雅图公共图书馆数据 347
22.5 使用dplyr和arrow 348
22.5.1 性能 349
22.5.2 其他优势 350
22.6 小结 350
第23章 层级数据 351
23.1 引言 351
23.2 列表 351
23.2.1 层级结构 352
23.2.2 列表列 354
23.3 展开 356
23.3.1 unnest_wider() 356
23.3.2 unnest_longer() 357
23.3.3 不一致的类型 357
23.3.4 其他函数 358
23.3.5 练习题 358
23.4 案例研究 359
23.4.1 非常宽的数据 359
23.4.2 关系数据 361
23.4.3 深层嵌套的数据 363
23.4.4 练习题 366
23.5 JSON 367
23.5.1 数据类型 367
23.5.2 jsonlite 367
23.5.3 开始矩形化过程 368
23.5.4 练习题 369
23.6 小结 370
第24章 网页爬取 371
24.1 引言 371
24.2 网页爬取的伦理和法律问题 372
24.2.1 服务条款 372
24.2.2 个人可识别信息 372
24.2.3 版权 373
24.3 HTML基础知识 373
24.3.1 元素 374
24.3.2 属性 374
24.4 提取数据 374
24.4.1 定位元素 375
24.4.2 嵌套选择 376
24.4.3 文本和属性 377
24.4.4 表格 378
24.5 写出正确的选择器 378
24.6 整合运用 379
24.6.1 星球大战 379
24.6.2 IMDb*电影 381
24.7 动态网页 383
24.8 小结 384
第五部分 编程
第25章 函数 387
25.1 引言 387
25.2 向量函数 388
25.2.1 编写函数 388
25.2.2 改进函数 390
25.2.3 修改函数 390
25.2.4 汇总函数 391
25.2.5 练习题 392
25.3 数据框函数 393
25.3.1 间接引用与整洁求值 393
25.3.2 何时使用间接引用 394
25.3.3 常用范例 395
25.3.4 数据屏蔽与整洁选择 397
25.3.5 练习题 398
25.4 图形函数 399
25.4.1 更多变量 400
25.4.2 结合其他tidyverse函数 402
25.4.3 添加标签 403
25.4.4 练习题 404
25.5 编程风格 404
25.6 小结 406
第26章 迭代 407
26.1 引言 407
26.2 修改多列 408
26.2.1 使用.cols选择列 408
26.2.2 调用单个函数 409
26.2.3 调用多个函数 410
26.2.4 列名 411
26.2.5 筛选行 412
26.2.6 在函数中使用across() 413
26.2.7 across()与pivot_longer() 414
26.2.8 练习题 416
26.3 批量读取文件 416
26.3.1 列出目录中的文件 417
26.3.2 结果列表 417
26.3.3 purrr::map()与list_rbind() 418
26.3.4 路径中的数据 419
26.3.5 保存结果 421
26.3.6 多次简单迭代 421
26.3.7 异质数据 422
26.3.8 处理失败情况 423
26.4 批量保存结果 424
26.4.1 写入数据库 424
26.4.2 写入多个CSV文件 426
26.4.3 保存图形 427
26.5 小结 428
第27章 基础R应用指南 429
27.1 引言 429
27.2 用[取子集 430
27.2.1 对向量取子集 430
27.2.2 对数据框取子集 431
27.2.3 dplyr中的等同操作 432
27.2.4 练习题 433
27.3 用$和[[取内容 433
27.3.1 对于data.frame 433
27.3.2 对于tibble 434
27.3.3 对于列表 435
27.3.4 练习题 436
27.4 apply函数族 436
27.5 for循环 438
27.6 基础绘图 439
27.7 小结 440
第六部分 交流
第28章 Quarto 443
28.1 引言 443
28.2 Quarto基础 444
28.3 可视化编辑模式 447
28.4 源码编辑模式 449
28.5 代码块 450
28.5.1 代码块标签 451
28.5.2 代码块选项 452
28.5.3 全局选项 453
28.5.4 行内代码 453
28.5.5 练习题 454
28.6 图像 454
28.6.1 图像大小调整 454
28.6.2 其他重要选项 456
28.6.3 练习题 456
28.7 表格 457
28.8 缓存 458
28.9 错误调试 459
28.10 YAML头 460
28.10.1 自包含文档 460
28.10.2 参数 460
28.10.3 引用和参考文献 461
28.11 工作流 462
28.12 小结 463
第29章 Quarto格式 465
29.1 引言 465
29.2 输出选项 465
29.3 文档 466
29.4 演示文稿 467
29.5 交互性 467
29.5.1 htmlwidgets 467
29.5.2 Shiny 468
29.6 网站和图书 469
29.7 其他格式 470
29.8 小结 471
- 人民邮电出版社有限公司 (微信公众号认证)
- 人民邮电出版社微店,为您提供最全面,最专业的一站式购书服务
- 扫描二维码,访问我们的微信店铺
- 随时随地的购物、客服咨询、查询订单和物流...