商品详情
编辑推介:
Chatgpt 背后的核心技术、情感分析的智能大师、人工智能皇冠 上的明珠……
自然语言处理,让机器学会说话,让人类实现与机器的无障碍沟通!
内容简介:
自然语言处理是人工智能领域中的一个重要方向。本书将用深入浅出的语言介绍自然语言处理技术的由来与发展历程,自然语言处理的常用工具和实现平台,讲解了自然语言理解的技术基础,从词法、句法、语义、语用等各个方面介绍原理和主流技术,以及自然语言生成的挑战和解决办法。书中通过自然语言处理经典的任务说明,展现其作为人工智能关键技术的应用场景和应用成效,同时,也将简述自然语言处理的当前研究热点和各种现代技术,并对自然语言处理未来发展趋势进行展望。
作者简介:
谭明奎 :
华南理工大学教授、博士生导师,现任华南理工大学“大数据与智能机器人”教育部重点实验室副主任。2017年入选中组部高层次人才计划青年项目,2018年入选广东省“珠江人才团队”,2022年入选美国斯坦福大学全球前2%顶尖科学家榜单。主持国家自然科学基金、广东省“新一代人工智能”重大专项等多个国家和省部级项目。近5年以第一作者或者通信作者发表学术论文60余篇,其中包括IEEE TPAMI等IEEE汇刊论文21篇,以及NeurIPS、ICML、ICLR、CVPR等CCF-A人工智能顶级会议论文30余篇。担任NeurIPS、ICML、AAAI、CVPR等多个人工智能会议的领域主席。获得2019年“世界华人数学家联盟最佳论文奖(ICCM Best Paper)”等多项奖励。
杜 卿 :
华南理工大学副教授,硕士生导师。主要研究方向为数据挖掘、机器学习等,一直从事用户建模、推荐系统、视觉-语言多模态融合等方面的研究工作。2018—2019年作为访问学者在澳洲新南威尔士大学进行交流访问。主持或参与了国家科技部重点项目、广东省自然科学基金、广东省科技计划项目等多个国家及省部级科研项目,已发表译著一本,在国际期刊和会议上发表论文20余篇,取得多项发明专利和软件著作权。
目录:
第一章 自然语言兴起:一场机器与人类的对话 001
一、人机对话的选项——自然语言和计算机语言 003
二、智能考核指标——自然语言处理和人工智能 005
三、前世今生——自然语言处理的发展历程 007
(一)基础研究时期 008
(二)现代研究时期 012
四、百宝箱——自然语言处理工具 017
(一)NLPIR自然语言处理与信息检索共享平台 017
(二)Standford CoreNLP 018
(三)NLTK 018
(四)spaCy 019
(五)中文语料库 020
第二章 自然语言理解基础:语言学习小课堂 023
一、机器的记忆——文本表示 025
二、机器知词语——词法分析 031
(一)分词 031
(二)词性标注 034
(三)命名实体识别 037
三、机器识句子——句法分析 039
(一)树库 040
(二)句法分析技术 041
四、机器明意思——语义分析 045
(一)语义消歧 046
(二)语义提取 048
五、机器晓语境——语用分析 049
六、机器有感情——情感分析 051
(一)情感分析分类 051
(二)情感分析方法 053
第三章 自然语言生成技术:语言课堂大考验 055
一、下笔如有神——自然语言生成 056
(一)审题目——内容确定 057
(二)列提纲——文本结构 057
(三)写句子——句子生成 058
(四)交作业——语言实现 062
二、增缩改写都拿手——文本到文本生成 064
(一)文本缩写 067
(二)文本扩展 068
(三)文本重写 069
三、对照数据做报告——数据到文本生成 070
四、看图说话也在行——图像到文本生成 073
第四章 自然语言处理应用:就业上岗样样精 077
一、语言沟通无国界——机器翻译 078
(一)机器翻译及其特点 078
(二)机器翻译技术沿革 079
(三)机器翻译质量 081
二、网络冲浪小助手——文本检索 082
三、答疑聊天不下线——智能对话系统 088
(一)问答系统 088
(二)智能助手 091
四、互联动态全在握——舆情分析 092
五、听说读写全能王——语音识别和生成 096
(一)语音识别 098
(二)语音合成 100
第五章 自然语言处理研究热点:追梦脚步不停歇 105
一、基于深度学习的自然语言处理技术 106
(一)基于神经网络的分词 106
(二)端到端训练 107
(三)预训练模型 109
(四)神经网络模型的先进代表 110
二、视觉-语言融合 114
三、跨语言模型 117
四、火遍全球的ChatGPT 119
(一)ChatGPT争霸秘笈——ChatGPT的工作原理 120
(二)ChatGPT登顶之路——GPT模型的发展历史 123
(三)ChatGPT横扫世界——ChatGPT的应用 126
(四)ChatGPT的偏见与傲慢——大模型的问题与挑战 130
(五)ChatGPT进化升级——大模型未来发展方向和展望 132
第六章 自然语言处理未来展望:无限风光在险峰 135
一、从浅层分析到深度理解 137
二、从具体任务到世界模型 138
三、从文本学习到感知融合 139
四、从被动学习到主观能动 140
五、从专业门槛到普罗大众 141
参考文献 143
精彩书摘:
四、百宝箱——自然语言处理工具
市场上有许多支持自然语言处理的工具平台和软件包,为我们了解自然语言处理提供了各种基本功能和基础算法。它们都是为特定的目标所构建,各有优势。单个工具可能无法为所有问题提供解决方案,通过充分了解目标需求来选择适合应用场景、满足开发基本需求的工具极为重要。
(一)NLPIR自然语言处理与信息检索共享平台
NLPIR自然语言处理与信息检索共享平台起步于汉语词法分析系统(institute of computing technology,Chinese lexical analysis system,ICTCLAS),这是最经典的汉语分词系统之一[5]。其 主要功能包括中文分词、英文分词、词性标注、命名实体识别、新词识别、关键词提取等,并支持用户专业词典与微博分析。 自2009年起,ICTCLAS在原有系统的基础上增加了大数据语义智能分析系统,并针对大数据内容处理的需要,融合了网络精准采集、自然语言理解、文本挖掘和网络搜索技术等13项功能,形成了更为专业、强大的中文处理平台,提供客户端工具、云服务、二次开发接口,进一步推动中文处理技术的发展和
应用。
(二)Standford CoreNLP
Stanford CoreNLP是斯坦福大学自然语言处理研究组用Java开发的自然语言处理工具[6]。该平台目前支持8种语言:汉语、 阿拉伯语、英语、法语、德语、匈牙利语、意大利语和西班牙语。Standford CoreNLP接收原始文本后,对文本进行一系列自然语言处理操作,生成包含各种标注信息的数据对象,实现分词、分句、词性标注、命名实体、句法分析、依赖关系、指代引用等许多常见的自然语言处理任务,用户可通过简单的应用程序接(application programming interface,API)进行使用。
(三)NLTK
NLTK(natural language toolkit,自然语言处理工具包)是一个免费、开源、社区驱动的项目,由史蒂文·伯德(Steven Bird)和爱德华·洛珀(Edward Loper)在宾夕法尼亚大学计算机和信息科学系开发,是自然语言处理学习研究中最常使用的一 个Python库,适用于Windows、Mac OS X和Linux操作系统[7]。 它为50多个语料库和词汇资源(如WordNet)提供了易于使用的接口,以及一套用于分类、词性标记、词干标记、句法解析和语义推理的文本处理库,为使用者创造了一个活跃的讨论论坛。NLTK的创作者编写了一套介绍编程基础知识和计算语言学主题的实践指南,其解释了工具包支持的自然语言处理任务背后的基本概念,指导读者掌握Python程序编写、语料库使用、文本分类、语言结构分析等基础知识。它适用于语言学家、工程师、学生、教育工作者、研究人员和行业用户。NLTK被称为“使用Python进行计算语言学教学和工作的极好工具”,以及“一个令人惊叹的自然语言处理库”。
(四)spaCy
spaCy是一个具有工业级强度的自然语言处理工具包,专门为生产应用而设计,擅长大规模信息提取任务,可以帮助企业构建处理和理解大量文本的应用程序[8]。它是一个免费的开源库,用Python开发,支持Unix/Linux,Mac OS和Windows操作系统,易于安装,API简单、高效,为自然语言处理领域的很多任务开发提供支持,比如词性标注、命名实体识别、依存句法分析、归一化、停用词等,多用于辅助构建自然语言理解系统,或预处理文本以进行深度学习。spaCy自带预训练好的模块,目前支持60多种语言的标记化和训练。spaCy各个模块在大小、速度、内存使用、准确性和包含的数据方面可能有所不同,其取决
于用户正在使用的文本类型和内容。spaCy不是研究型软件,虽然它是建立在最新的研究基础上的,但它的目的是实践落地。因此它与NLTK或StandfordCoreNLP有着截然不同的设计决策,后两者被创建为教学和研究的平台。具体区别在于spaCy是集成性的和目标明确的。spaCy试图避免让用户在提供等效功能的多个算法之间进行选择,保持较少数量的功能菜单以便给开发人员提供更好的性能和开发体验。自发布五年以来,spaCy已经成为一个具有巨大生态系统的行业标杆。
(五)中文语料库
语料库是自然语言处理研究中必不可少的语言材料素材库, 这些素材是由实际场景中真实出现过的语言材料经过分析处理、 添加标注等工序生成的。语料库对于自然语言学和自然语言处理 等领域的研究都至关重要。在基于统计和基于机器学习的方法中,语料库就是算法的统计素材,因此被称为训练语料库。 当前常用的中文语料库有北京大学语料库(center for Chinese linguistic,CCL)、新时代人民日报分词语料库(new era people’s
daily,NEPD)和宾州中文树库(Chinese treebank,CTB)等。 CCL语料库由北京大学中国语言学研究中心建立和维护, 包含现代汉语语料、古代汉语语料两类单语语料,收录的文献 时间范围为公元前11世纪到当代[9]。其中现代汉语语料约5亿 汉字,涵盖了文学、戏剧、报刊、翻译作品、网络语料、应用 文、电视电影、学术文献、史传、相声小品、口语等多个类型。CCL语料库中古代汉语语料约1.6亿汉字,收录了从周朝到民国时期的语料及大藏经、二十五史、历代笔记、十三经注疏、全唐诗、诸子百家、全元曲、全宋词、道藏、辞书、蒙学读物等杂类语料。NEPD语料库是南京农业大学黄水清教授团队以已有的北京
大学1998年人民日报语料库为基础,进行扩充而来的现代汉语通用语料库[10]。语料库以《人民日报》作为原始语料,保证了语料表达是规范的现代汉语,是面向现代汉语文本学习的高质量“统编教材”。 CTB语料库由大约150万字的中文新闻、政府文件、杂志文章、各种广播新闻和广播谈话节目、网络新闻组和网络日志的注释和解析文本组成[11]。其中有3 007个文本文件,包含71 369个句子、1 620 561个单词、2 589 848个字符(汉字或外国文字)。
- 广东科技出版社
- 扫描二维码,访问我们的微信店铺