商品详情
内容简介
本书系统介绍自然语言处理(即自然语言理解)的经典和前沿技术内容,包括学科发展的简要背景、
基础的建模方法和典型的语言处理任务。本书围绕语言模型展开并贯穿其中,包括 n元语言模型、连续空
间语言模型(词嵌入)以及前沿的预训练语言模型。
现代自然语言处理建立在机器学习的基础之上。无论针对传统机器学习还是针对现代深度学习,本书
统一以结构化学习的脉络展开,统一阐述典型的语言处理任务的普遍性机器学习建模方式,包括词切分、
序列标注以及树结构解析。同时,本书以一种统一的观点梳理机器学习和深度学习方法的要点,服务于自
然语言处理任务的建模方法。最后,本书综述了经典和前沿的语言处理任务:句法分析、语义分析、阅读
理解和大语言模型。以阅读理解为代表的自然语言理解任务赋予传统的学科自然语言理解新的内涵。
本书适合作为高等学校相关专业高年级本科生和研究生的自然语言理解相关课程的教材,也可供自然
语言理解研究人员阅读参考。
编辑推荐
本书适合作为高校学校相关专业高年级本科生和研究生的自然语言理解相关课程的教材,同时可供自然语言理解研究人员阅读参考。
目录
第 1章自然语言处理概要 1
1.1自然语言处理的概念和术语 .1
1.1.1自然语言 .1
1.1.2自然语言处理与自然语言理解 .2
1.1.3计算语言学 3
1.2自然语言处理的技术性挑战 .4
1.3机器翻译 7
1.4语言处理层次 .9
1.5应用型自然语言处理:人机对话系统 16
1.6自然语言处理的学术出版体系 19
参考文献25
第 2章 n元语言模型.27
2.1概率论基础.27
2.2语言模型用于语言生成 29
2.3 n元语言模型的工作方式及马尔可夫假设 .30
2.3.1 n元机制 .30
2.3.2马尔可夫假设.31
2.4评价指标:困惑度.32
2.5 n元语言模型的平滑方法.33
2.5.1 Laplace平滑(加一平滑)34
2.5.2 Good-Turing平滑 35
2.5.3 Jelinek-Mercer平滑 .36
2.5.4 Katz平滑37
2.5.5 Kneser-Ney平滑 37
2.5.6 Pitman-Yor语言模型 .39
2.6非 n元机制的平滑方法 .41
2.6.1缓存 41
2.6.2跳词 41
2.6.3聚类 42
2.7平滑方法的经验结果 .43
2.8 n元语言模型的建模工具.44
参考文献45
第 3章语言编码表示 .47
3.1独热表示 47
3.2特征函数 49
3.3通用特征模板 .52
3.4加权的独热表示:TF-IDF.53
参考文献55
第 4章非监督的结构化学习 .56
4.1自然语言处理的方法构成.56
4.2简单任务:词/子词切分 58
4.3切分算法 58
4.3.1通用切分框架.58
4.3.2全局优度最大化:Viterbi解码算法 .59
4.3.3局部优度最大化:贪心解码算法 59
4.4优度度量 60
4.4.1频率 60
4.4.2邻接多样性 61
4.4.3分支熵.62
4.4.4描述长度增益.63
4.4.5点互信息 .63
4.4.6学生 t测试64
4.5非监督分词.64
4.5.1数据集和评估指标 64
4.5.2词典预处理技巧 .65
4.5.3性能 66
4.6推广的字节对编码切分算法 .67
参考文献67
第 5章结构化学习 69
5.1机器学习的粒度和语言单元 .69
5.2结构化学习的必要性 .72
5.3自然语言处理中的结构化学习任务 .74
5.4退化为分类任务 76
5.5结构分解 78
5.6共时结构分解:图模型 78
5.7历时结构分解:转移模型.82
5.8两类结构化分解方式的优劣 .83
5.9结构化学习的简化情形 84
参考文献85
第 6章结构上的标注任务 86
6.1从结构标注到序列标注 86
6.2局部马尔可夫模型.88
6.3全局马尔可夫模型和条件随机场.90
6.3.1全局马尔可夫模型 90
6.3.2马尔可夫随机场 .91
6.3.3条件随机场 92
6.4隐马尔可夫模型 95
6.4.1从马尔可夫链到隐马尔可夫模型 95
6.4.2隐马尔可夫模型的基本计算任务:概率估计 .96
6.4.3隐马尔可夫模型的训练:参数估计.99
6.4.4隐马尔可夫模型的解码:Viterbi算法99
6.5自然语言处理中的结构标注任务. 100
6.5.1再标注的序列标注任务 . 100
6.5.2词性标注任务的隐马尔可夫模型实现示例. 102
6.5.3推广的分词建模:不等单元的结构分解 105
参考文献 107
第 7章机器学习模型 . 109
7.1机器学习模型的要素配置. 109
7.2损失函数 111
7.3 k近邻方法 . 116
7.4感知机 . 119
7.5铰链损失与支持向量机 124
7.5.1最大化间隔 125
7.5.2惩罚项导出的软边界. 128
7.5.3映射到高维空间 . 129
7.5.4核函数. 132
7.5.5支持向量机的训练算法 . 134
7.5.6多类支持向量机 . 136
7.5.7支持向量机工具包 136
7.5.8支持向量机总结 . 138
7.6交叉熵损失与最大熵模型. 138
7.6.1最大似然估计:对数-线性模型 139
7.6.2最大熵原理 143
7.6.3平滑 145
7.6.4最大熵模型的工具包. 146
7.7从神经元学习到神经网络. 146
参考文献 147
第 8章深度学习模型 . 150
8.1表示学习 152
8.2连续空间语言模型:词嵌入或词向量 154
8.2.1连续空间语言模型 154
8.2.2连续空间语言模型的机器学习解释. 156
8.2.3 Word2Vec和 GloVe词嵌入 159
8.2.4评估词向量 162
8.3神经网络的结构配置 . 167
8.3.1神经网络的拓扑连接方式 168
8.3.2激活函数 . 170
8.4深度学习模型的训练 . 175
8.4.1训练目标:输出表示和损失函数 175
8.4.2误差反向传播算法 178
8.4.3深度学习的训练管理器 . 179
8.5编码器-解码器建模 . 180
8.6编码器架构:循环神经网络 . 183
8.6.1循环神经网络的 BPTT训练算法 185
8.6.2长短时记忆网络 . 186
8.7编码器架构:卷积神经网络 . 188
8.7.1卷积 189
8.7.2池化 190
8.7.3卷积神经网络的结构. 191
8.8编码器架构:Transformer . 192
8.8.1自注意力机制. 192
8.8.2 Transformer网络结构 193
8.9编码器比较:RNN、CNN和 Transformer 196
8.10序列生成的解码过程 196
8.11符号主义对阵联结主义 199
8.12深度学习工具包 201
参考文献 203
第 9章预训练语言模型 206
9.1从表示学习到自监督学习. 206
9.2从 n元语言模型到预训练语言模型 207
9.3输入单元管理 . 211
9.4预训练语言模型的自回归解释 212
9.5以编辑操作定义自监督学习 . 216
9.6采样与预测目标的单元选择 . 217
9.7编码器架构. 218
9.8预训练语言模型方法的普适化 220
9.9预训练语言模型的强化策略 . 221
9.9.1知识增强 . 222
9.9.2多模态预训练语言模型 . 222
9.9.3模型优化 . 224
9.10典型的预训练语言模型 224
参考文献 228
第 10章句法分析 232
10.1句法分析概要 233
10.2成分/短语句法分析 . 235
10.2.1乔姆斯基文法层次体系 235
10.2.2上下文无关文法 237
10.2.3概率上下文无关文法 242
10.3依存句法 246
10.3.1带中心词标注的成分句法 . 246
10.3.2依存结构 247
10.3.3成分/短语结构到依存结构的转换 . 248
10.4句法标注语料:树库 250
10.5成分/短语句法分析算法. 251
10.5.1 CYK算法 251
10.5.2 Earley算法 254
10.6依存句法分析算法 . 255
10.6.1基于图模型的依存句法分析 255
10.6.2基于转换模型的依存句法分析 259
10.6.3非投影型依存分析 . 261
10.7句法分析的深度学习方法改进 264
10.8依存分析的序列到序列建模 266
10.9从容易优先分析到全局贪心分析 . 267
10.10句法分析的经验结果 270
参考文献 272
第 11章语义角色标注 . 279
11.1从语义分析到语义角色标注 279
11.2句法分析树上的语义图 281
11.3语义角色标注的规范和语料 283
11.4语义角色标注的建模方式 . 285
11.5句法特征集成:传统机器学习模型 291
11.6句法编码器:深度学习模型 292
11.7句法裁剪 297
11.8统一建模成分和依存语义角色标注 299
11.9语义角色标注中的句法角色变迁 . 300
11.10语义角色标注的经验结果 . 303
参考文献 304
第 12章机器阅读理解 . 307
12.1机器阅读理解任务的类型和评价指标 308
12.2机器阅读理解的深度学习建模 310
12.2.1编码器 312
12.2.2解码器 314
12.3对话理解 317
12.4面向推理的阅读理解 319
12.5常识问答 320
12.6开放域问答 . 322
参考文献 325
第 13章大语言模型及其前沿应用 334
13.1脑计划与预训练语言模型 . 334
13.2从预训练语言模型到大语言模型 . 336
13.3从提示学习到思维链推理 . 343
13.4对话式大语言模型 ChatGPT . 349
13.5知识边界 356
参考文献 363
后记. 366
- 清华大学出版社旗舰店 (微信公众号认证)
- 扫描二维码,访问我们的微信店铺
- 随时随地的购物、客服咨询、查询订单和物流...