清华大学出版社旗舰店店铺主页二维码
清华大学出版社旗舰店 微信认证
微信扫描二维码,访问我们的微信店铺
你可以使用微信联系我们,随时随地的购物、客服咨询、查询订单和物流...

自然语言处理与应用(计算机学科研究生系列教材)

71.20
运费: ¥ 0.00-10.00
库存: 411 件
自然语言处理与应用(计算机学科研究生系列教材) 商品图0
自然语言处理与应用(计算机学科研究生系列教材) 商品缩略图0

商品详情

内容简介

本书集学术前沿、教学成果与应用实践于一体,系统讲述自然语言处理理论与应用。全书分为5篇。基础理论篇包括第1~4章,主要内容为自然语言处理与应用概述、面向自然语言处理的深度学习经典平台与算法、面向自然语言处理的深度学习前沿进展、预训练语言模型;信息处理篇包括第5~9章,主要内容为网络爬虫技术、多格式文档解析与管理、语音文字识别、图像语义表示与字符识别、中文分词与词性标注;语义分析篇包括第10~13章,主要内容为情感分析、新词发现、命名实体识别与关键词提取、知识图谱的大数据自动构建与应用;文本挖掘篇包括第14~18章,主要内容为信息过滤、文本分类、文本聚类、文本校对、自动摘要;应用篇包括第19、20章,主要内容为自然语言处理应用项目和案例。

本书可作为高等学校自然语言处理方向研究生与高年级本科生的专业课教材,也可供自然语言处理方向的科研人员、工程技术人员和爱好者参考。


编辑推荐

集自然语言处理学术前沿、教学成果与应用实践于一体;

充分反映自然语言处理方向的国际学术前沿进展;

融入北京理工大学团队20余年自然语言处理与应用方向的创新性成果,获得多项省部级科技奖,NLPIR自然语言处理与信息检索共享平台网提供配套的演示程序及代码;

六年多研究型一线教学实践,收录了多个研究小组优秀项目业作为应用案例剖析。


目录

 

第1篇基础理论篇

第1章自然语言处理与应用概述3

1.1自然语言处理3

1.1.1自然语言处理的定义、难点及其发展历程3

1.1.2自然语言处理的上下游任务4

1.2中文自然语言处理发展现状7

1.2.1自然语言处理任务评测结果7

1.2.2中文数据集与评测现状8

1.2.3中文预训练语言模型现状9

1.2.4中国影响力现状9

1.3自然语言处理的发展趋势11

1.3.1处理从人工到自动化11

1.3.2应用从通用到场景化13

1.3.3算法从单一到平台化15

1.4中文互联网自然语言处理面临的挑战16

1.4.1信息对抗16

1.4.2多语言交互16

1.4.3社会演化17

 

第2章面向自然语言处理的深度学习经典平台与算法18

2.1深度学习经典平台18

2.1.1TensorFlow18

2.1.2PyTorch20

2.1.3PaddlePaddle21

2.2深度学习经典算法22

2.2.1卷积神经网络222.2.2循环神经网络23

2.2.3生成对抗网络26

 

第3章面向自然语言处理的深度学习前沿进展30

3.1传统深度学习遇到的瓶颈30

3.1.1深度学习概述30

3.1.2传统深度学习遇到的问题31

3.2面向数据的深度学习前沿进展33

3.2.1主动学习33

3.2.2自监督学习35

3.2.3提示学习37

3.2.4图神经网络39

3.2.5多模态学习41

3.3面向训练的深度学习前沿进展43

3.3.1多任务学习43

3.3.2终身学习45

3.3.3范式迁移46

3.4面向应用的深度学习前沿进展47

3.4.1模型压缩47

3.4.2可解释学习48

3.4.3对抗与算法安全49

 

第4章预训练语言模型51

4.1预训练语言模型概述51

4.1.1预训练语言模型定义51

4.1.2预训练语言模型的发展历程51

4.2常见预训练语言模型介绍52

4.2.1BERT52

4.2.2GPT354

4.2.3ELMo54

4.2.4ERNIE55

4.3预训练语言模型的使用56

4.3.1迁移学习56

4.3.2微调56

4.4预训练语言模型发展趋势58

4.4.1多语种58

4.4.2多模态58

4.4.3增大模型58

4.4.4替换预训练任务59

4.4.5结合外部知识60

4.4.6预训练语言模型压缩61

4.5应用与分析61

4.5.1模型介绍61

4.5.2模型使用62

 

第2篇信息处理篇

第5章网络爬虫技术65

5.1概述65

5.1.1网络爬虫的概念内涵65

5.1.2网络爬虫的技术发展65

5.1.3网络爬虫的爬取过程66

5.2网络爬虫分类67

5.2.1通用网络爬虫67

5.2.2深层网络爬虫68

5.2.3聚焦网络爬虫68

5.2.4增量式网络爬虫70

5.3网络爬虫库与框架71

5.3.1网络爬虫库71

5.3.2网络爬虫框架72

5.4网络爬虫技术前沿75

5.4.1网络爬虫技术的最新进展75

5.4.2反爬的前沿技术75

5.5应用与分析76

 

第6章多格式文档解析与管理80

6.1概述80

6.1.1文档格式80

6.1.2文档标准的发展历程80

6.2多格式文档解析81

6.2.1Word文档解析81

6.2.2PDF文档解析83

6.3多格式文档管理85

6.3.1在线文档管理85

6.3.2区块链文档管理87

6.4应用与分析88

6.4.1多格式文档读取算法88

6.4.2多格式文档解析实例90

 

第7章语音文字识别95

7.1概述95

7.1.1发展历程95

7.1.2基本原理96

7.2经典算法98

7.2.1经典语言模型98

7.2.2经典声学模型99

7.3最新进展103

7.3.1DFCNN模型104

7.3.2混合网络Conformer105

7.4应用与分析106

 

第8章图像语义表示与字符识别108

8.1图像字幕108

8.1.1问题背景108

8.1.2技术分析108

8.1.3建模方法112

8.1.4应用与分析114

8.2OCR及领域优化115

8.2.1问题背景115

8.2.2技术分析116

8.2.3应用与分析120

 

第9章中文分词与词性标注123

9.1中文分词概述123

9.2中文分词的困难124

9.3基于机械匹配的中文分词算法127

9.3.1词典匹配法127

9.3.2N最短路径法130

9.4基于统计语言模型的中文分词算法132

9.4.1N元语言模型132

9.4.2互信息模型133

9.4.3最大熵模型134

9.5NLPIRICTCLAS: 基于层次隐马尔可夫模型的中文分词算法135

9.5.1层次隐马尔可夫模型136

9.5.2基于类的隐马尔可夫分词算法138

9.5.3N最短路径的切分排歧策略139

9.6基于双向循环神经网络与条件随机场的词法分析140

9.6.1概述140

9.6.2基于双向循环神经网络的序列标注140

9.6.3融合条件随机场的深度神经网络模型141

9.7应用与分析142

9.7.1NLPIRICTCLAS应用演示142

9.7.2LTP143

9.7.3结巴分词143

9.7.4PKUSeg143

 

第3篇语义分析篇

第10章情感分析147

10.1情感分析概述147

10.1.1研究任务148

10.1.2研究热点148

10.2经典方法149

10.2.1基于情感词典的情感分析方法149

10.2.2基于机器学习的情感分析方法150

10.2.3基于深度学习的情感分析方法152

10.2.4先进模型153

10.3应用与分析153

 

第11章新词发现158

11.1新词发现概述158

11.2多语种新词发现前沿综述159

11.3基于规则的新词发现方法161

11.3.1规则抽取方法161

11.3.2规则过滤方法162

11.4基于统计模型的新词发现方法162

11.4.1凝固度163

11.4.2信息熵163

11.4.3新词IDF163

11.5基于深度学习的新词发现方法164

11.6应用与分析165

11.6.1面向社会媒体的开放领域新词发现165

11.6.2多语种新词发现示例171

 

第12章命名实体识别与关键词提取173

12.1命名实体识别与关键词提取概述173

12.1.1命名实体识别173

12.1.2关键词提取177

12.2经典算法177

12.2.1命名实体识别经典算法177

12.2.2关键词提取经典算法185

12.2.3算法分类189

12.3应用与分析191

12.3.1命名实体识别示例191

12.3.2关键词提取实验194

 

第13章知识图谱的大数据自动构建与应用198

13.1知识图谱概述198

13.2知识图谱的数据来源200

13.2.1大规模知识库200

13.2.2互联网链接数据200

13.2.3多数据源的知识融合202

13.3知识图谱的构建203

13.3.1概念发现206

13.3.2关联计算207

13.3.3关系抽取208

13.4应用与分析211

13.4.1智能搜索211

13.4.2机器人学习机212

13.4.3文档表示212

 

第4篇文本挖掘篇

第14章信息过滤215

14.1信息过滤概述215

14.1.1信息过滤推荐最新进展217

14.1.2重点关注信息过滤最新进展219

14.2信息过滤推荐经典算法219

14.2.1内容过滤219

14.2.2协同过滤220

14.2.3混合过滤221

14.3重点关注信息过滤经典算法222

14.3.1黑白名单过滤222

14.3.2基于内容的文本过滤222

14.3.3基于内容的图片过滤225

14.4应用与分析228

14.4.1信息过滤推荐示例228

14.4.2垃圾信息过滤示例229

14.4.3智能过滤系统展示232

 

第15章文本分类234

15.1文本分类概述234

15.1.1基于统计规则的文本分类234

15.1.2基于机器学习的文本分类234

15.1.3基于深度学习的文本分类235

15.2文本分类算法237

15.2.1稠密连接网络237

15.2.2图神经网络239

15.2.3注意力模型242

15.3应用与分析245

15.3.1数据集245

15.3.2实验245

 

第16章文本聚类246

16.1文本聚类概述246

16.2文本聚类算法体系246

16.3半监督文本聚类248

16.4基于关键特征聚类的Top N热点话题检测方法研究250

16.4.1研究概述250

16.4.2基于文档关键特征的话题聚类251

16.4.3实验结果展示254

 

第17章文本校对256

17.1文本校对概述256

17.2文本校对算法257

17.2.1基于统计机器学习的文本校对方法258

17.2.2基于深度学习的文本校对方法258

17.2.3基于预训练语言模型的文本校对方法259

17.3KDN: 基于知识驱动的多类型文本校对融合算法264

17.3.1语法校对264

17.3.2语病校对265

17.3.3基于音形码的相似度计算266

17.3.4校对融合算法266

17.4NLPIR文本自动校对系统设计与应用267

17.4.1自动校对模块267

17.4.2前后端设计与实现267

17.4.3在线校对插件office268

17.4.4在线校对功能示例269

 

第18章自动摘要270

18.1自动摘要概述270

18.1.1基于抽取的自动文摘272

18.1.2基于理解的自动文摘274

18.2基于关键词提取的自动摘要274

18.2.1文本预处理274

18.2.2停用词表275

18.2.3双数组Trie树276

18.2.4关键词提取277

18.2.5句子切分279

18.2.6句子相似度计算280

18.3面向主题的自动摘要280

18.3.1改进的最大边缘相关度方法281

18.3.2面向主题的词特征统计282

18.3.3领域主题词表282

18.3.4句子间的包含关系283

18.4基于主题模型与信息熵的中文文档自动摘要技术研究284

18.4.1主题模型285

18.4.2信息熵286

18.4.3句子信息熵的计算方法286

18.4.4算法介绍287

18.4.5自动摘要应用示例288

 

第5篇应用篇

第19章自然语言处理应用项目293

19.1裁判文书阅读理解293

19.1.1背景介绍293

19.1.2数据集简介293

19.1.3评价标准293

19.1.4实验过程及分析294

19.2PDF敏感信息发现与隐私保护295

19.2.1背景介绍295

19.2.2数据处理296

19.2.3个人信息识别297

19.2.4脱敏技术298

19.2.5结果展示300

19.3微博博主的特征与行为大数据挖掘301

19.3.1背景介绍301

19.3.2宏观特征大数据挖掘302

19.3.3实验与分析307

19.3.4微博博主的价值观自动评估方法307

19.4用于中文影视剧台词的语义消歧系统309

19.4.1背景介绍309

19.4.2语义消歧知识图谱的构建310

19.4.3基于知识图谱和语义特征的语义消歧算法312

19.4.4实验结果与分析314

19.4.5语义消歧系统315

19.5大数据考研分析316

19.5.1背景介绍316

19.5.2模块设计317

19.5.3结果及分析318

19.6客服通话文本摘要提取319

19.6.1背景介绍319

19.6.2数据说明320

19.6.3评价指标320

19.6.4实验方法320

 

第20章自然语言处理应用案例322

20.1《红楼梦》前80回和后40回作者同一性分析322

20.1.1背景介绍322

20.1.2输入数据322

20.1.3分析工具和方法322

20.1.4结果及分析323

20.2丁真走红事件网络舆情分析327

20.2.1背景介绍327

20.2.2系统结构及方法327

20.3个人语言特征消除工具330

20.3.1背景介绍330

20.3.2技术概念330

20.3.3系统设计331

20.3.4总结分析332

20.4问药小助手333

20.4.1应用概述333

20.4.2数据来源333

20.4.3数据标注333

20.4.4症状识别334

20.4.5医疗槽填充335

20.5自动写诗与古诗词鉴赏翻译系统336

20.5.1自动写诗336

20.5.2古诗词鉴赏与翻译337


清华大学出版社旗舰店店铺主页二维码
清华大学出版社旗舰店 微信公众号认证
扫描二维码,访问我们的微信店铺
随时随地的购物、客服咨询、查询订单和物流...

自然语言处理与应用(计算机学科研究生系列教材)

手机启动微信
扫一扫购买

收藏到微信 or 发给朋友

1. 打开微信,扫一扫左侧二维码

2. 点击右上角图标

点击右上角分享图标

3. 发送给朋友、分享到朋友圈、收藏

发送给朋友、分享到朋友圈、收藏

微信支付

支付宝

扫一扫购买

打开微信,扫一扫

或搜索微信号:qhdxcbs
清华大学出版社官方微信公众号

收藏到微信 or 发给朋友

1. 打开微信,扫一扫左侧二维码

2. 点击右上角图标

点击右上角分享图标

3. 发送给朋友、分享到朋友圈、收藏

发送给朋友、分享到朋友圈、收藏