听觉信息处理研究前沿 9787313222060 党建武 俞凯 类脑计算与类脑智能研究前言系列
| 运费: | ¥ 5.00-18.00 |
| 库存: | 500 件 |
商品详情

本书主要介绍了国内外听觉信息处理方面的研究现状和阶段性成果,成功展示了我国在这些研究领域的优势与特色,并提出了未来性的技术挑战与建设性的发展方向。
[内容简介]
听觉信息处理技术的创新能够推动实现高度智能化机器感知系统的发展,本分册主要介绍了国内外听觉信息处理方面的研究现状和阶段性成果,通过对人类言语产生与听觉机理,听觉机理的计算理论与方法,语音信号处理,语音识别声学建模,特殊场景语音识别,声纹与语种识别,韵律、情绪及音乐分析,统计语音合成,口语对话系统等技术研究成果的阐述与分析,展示我国在这些研究领域的优势与特色,并提出未来的技术挑战与发展方向。
[作者简介]
俞凯 “国家杰青”获得者,青年千人计划入选者,上海市“东方学者”特聘教授,特别研究员,博导,上海交通大学智能语音技术实验室负责人。研究领域:人机口语交互,获“科学中国人 2016年度人物”,2014 年度“吴文俊人工智能科学技术奖”进步奖,发表论文 50 余篇。
党建武 天津大学计算机学院教授,语音科学家,现兼任国立大学法人日本北陆先端科学技术大学院大学信息科学学院教授。他研发出的人的发音机制及控制的生理计算模型一直在该领域处于领先地位,并以此生理计算模型为基础展开人脑在语音生成和感知方面的研究。他的研究室还进行记忆的神经生理模型及知识描述等研究。他组织和分担过美日、中日多项国际合作研究开发项目。党建武在JASA等科学技术杂志上发表了数十篇论文及二百余篇国际国内会议研究。
[目录]
1 言语产生和听觉的机理及其研究/党建武 赵 彬 魏建国 1
1.1 言语产生和感知的机理 … 3
1.1.1 有声语言产生的条件 … 3
1.1.2 语音产生的机理 … 5
1.1.3 语音感知的机理 … 7
1.2 声源的产生与声道的调制 … 13
1.2.1 声源产生机理与感知 13
1.2.2 声道的调制机理 18
1.3 言语产生与感知的相互作用 24
1.3.1 言语链 24
1.3.2 言语感知运动理论 … 26
1.3.3 言语感知机理研究的发展与挑战 … 27
1.3.4 镜像神经元和言语听觉 运动整合 … 28
1.4 言语的脑功能研究 30
1.4.1 言语的脑认知研究发展 … 30
1.4.2 言语的认知神经机理 33
1.4.3 言语功能障碍及康复训练 42
1.5 语音信号处理方法简介 47
1.5.1 基于产生机理的信号处理方法 48
1.5.2 基于感知机理的信号处理方法 52
参考文献 … 55
2 语音增强与麦克风阵列信号处理/付中华 69
2.1 信号模型 … 71
2.1.1 时域信号模型 … 71
2.1.2 频域信号模型与短时傅里叶变换技术 … 72
2.2 评价方法 … 74
2.2.1 主观评价方法与指标 74
2.2.2 客观评价方法与指标 76
2.3 单声道语音增强 … 78
2.3.1 时域维纳滤波器增强原理 80
2.3.2 频域维纳滤波器增强原理 81
2.3.3 噪声功率谱的估计 … 84
2.3.4 基于深度学习的语音增强 87
2.4 麦克风阵列语音增强 … 92
2.4.1 固定波束 … 93
2.4.2 自适应波束 106
2.4.3 后置滤波技术 … 113
参考文献 … 119
3 语音识别声学建模/俞 凯 徐 波 戴礼荣 123
3.1 统计语音识别概述 125
3.2 基于隐马尔可夫模型的经典声学建模方法 … 127
3.2.1 HMM 127
3.2.2 GMM HMM在语音识别中的使用 130
3.2.3 模型改进及问题分析 132
3.2.4 自适应技术 132
3.2.5 鉴别性训练技术 136
3.3 结合深度学习的声学建模方法 … 138
3.3.1 深度学习基础 … 138
3.3.2 CD DNN HMM混合建模 …149
3.3.3 深度学习在声学建模中的综合应用 152
3.3.4 深度学习训练加速 … 162
3.3.5 深度学习自适应技术 167
3.3.6 深度学习框架下的序列鉴别性训练 171
3.3.7 端到端声学建模 174
参考文献 … 179
4 特殊场景语音识别(抗噪、低资源)/谢 磊 张鹏远 钱彦旻
杜 俊 191
4.1 鲁棒语音识别前端 193
4.1.1 噪声鲁棒性语音识别方法 193
4.1.2 鲁棒性特征 194
4.1.3 信号域增强 195
4.1.4 特征增强/ 补偿方法 207
4.2 环境表达与声学模型自适应 209
4.2.1 自适应与鲁棒性 209
4.2.2 基于保守训练的自适应 … 210
4.2.3 基于线性变换的自适应 … 212
4.2.4 基于环境感知的自适应 … 213
4.2.5 参数结构化自适应及自适应训练 … 216
4.3 多语种声学与语言建模 217
4.3.1 基于知识共享的多语言声学建模技术 … 217
4.3.2 小语种语言模型建模技术 221
参考文献 … 224
5 声纹识别与语种识别/王龙标 李 明 郑 方 程星亮 李蓝天
… 237
5.1 声纹识别与语种识别简介 … 239
5.1.1 传统方法 … 241
5.1.2 深度学习方法 … 242
5.1.3 迁移学习、多任务学习及多数据库联合学习 246
5.2 声纹识别经典算法 246
5.2.1 特征提取 … 246
5.2.2 GMM-UBM-MAP … 249
5.2.3 i-vector … 252
5.2.4 PLDA 256
5.3 鲁棒性声纹识别算法 … 261
5.3.1 复杂环境声纹识别 … 262
5.3.2 时变声纹识别 … 265
5.3.3 短语音声纹识别 267
5.3.4 防声纹假冒闯入对策 270
5.4 基于深度学习的声纹及语种识别算法 275
5.4.1 广义统计量 276
5.4.2 Tandem及Bottleneck特征 278
5.4.3 典型模型结构 … 279
5.5 评价指标、数据库及工具包 283
5.5.1 评价指标 … 283
5.5.2 数据库及工具包 284
参考文献 … 285
6 韵律、情绪及音乐分析/陶建华 李爱军 李 伟 305
6.1 言语韵律 307
6.1.1 言语韵律基本概念与理论 307
6.1.2 韵律分析与建模 313
6.1.3 韵律标注系统 … 317
6.1.4 汉语韵律研究的挑战 320
6.2 情感语音 322
6.2.1 情感语音的声学特征 322
6.2.2 语音的情感分类与识别 … 324
6.2.3 情感语音合成 … 331
6.3 音乐内容分析理解 336
6.3.1 音乐和语音的关系 … 336
6.3.2 音乐旋律分析 … 340
6.3.3 音乐节奏分析 … 344
参考文献 … 349
7 统计语音合成/凌震华 陶建华 355
7.1 语音合成概述 357
7.2 基于隐马尔可夫模型的统计语音合成方法 … 359
7.2.1 隐马尔可夫模型 359
7.2.2 基于HMM的统计参数语音合成 … 361
7.2.3 基于HMM的统计参数语音合成关键技术 … 363
7.2.4 基于HMM的语音合成灵活性 366
7.2.5 基于HMM的统计参数语音合成方法的优缺点 … 372
7.3 结合深度学习的统计语音合成方法 … 374
7.3.1 深度学习关键技术 … 374
7.3.2 基于深度学习的声学建模方法 379
7.3.3 基于深度学习的频谱特征提取与频谱生成后滤波 391
7.3.4 基于神经网络的波形生成方法 394
7.4 基于神经网络的语音合成前端处理 … 399
7.4.1 基于深度学习的字音转换 399
7.4.2 基于深度学习的韵律边界预测 400
7.5 基于神经网络的语音合成端到端建模方法 … 402
参考文献 … 406
8 人机口语对话系统/俞 凯 陈 露 415
8.1 人机口语对话系统概述 417
8.1.1 人机口语对话系统发展历史及分类 417
8.1.2 任务型人机口语对话系统的基本架构 … 418
8.1.3 对话系统的评估 420
8.2 口语理解 422
8.2.1 口语理解基本概念 … 422
8.2.2 口语理解算法前沿 … 427
8.2.3 口语理解中的不确定性建模 … 437
8.2.4 上下文建模及领域自适应 440
8.2.5 研究展望 … 445
8.3 对话状态跟踪 446
8.3.1 基于部分可观测马尔可夫决策过程(POMDP)的对话管理
框架概述 … 446
8.3.2 对话状态跟踪 … 447
8.3.3 对话状态跟踪挑战赛 449
8.3.4 基于统计的DST模型 449
8.3.5 基于规则的DST模型 450
8.3.6 基于规则与统计相结合的DST模型 451
8.3.7 端到端的DST模型 … 453
8.3.8 多领域DST模型 457
8.4 对话策略优化 458
8.4.1 强化学习及其在对话策略优化中的应用 458
8.4.2 深度强化学习在对话策略优化中的应用 463
8.4.3 对话策略优化的高级技术 466
8.4.4 用户模拟器 469
参考文献 … 475
9 面向健康医疗的语音技术/贾 珈 … 489
9.1 言语感知的脑机制 491
9.1.1 言语感知机理 … 491
9.1.2 言语感知障碍的脑机制 … 499
9.2 助听技术与听障评估 … 503
9.2.1 人工电子耳的构成 … 505
9.2.2 人工电子耳语音信号编码方案 506
9.2.3 人工电子耳的当前技术挑战 … 507
9.2.4 听障评估技术 … 507
9.3 嗓音障碍产生机制与客观评估技术 … 510
9.3.1 嗓音障碍产生机制 … 511
9.3.2 嗓音障碍的声学客观评估方法 512
9.4 言语康复训练与学习 … 515
9.4.1 言语康复技术概述 … 516
9.4.2 可视化言语康复训练 519
参考文献 … 525
索引 529
[前言]
人类的语言主要有两种承载形式:连续信号的有声语言和离散信号的文本语言,其中有声语言至今已有五万年的历史,而文本语言至今已有四千多年的历史。文本语言是对有声语言运用规则的总结和符号化的记录,反过来讲,它对有声语言的习得和使用也起到了一定的指导作用。从本质上看,有声语言是经过符号化语言信息的调制、承载说话人意图信息和生物信息的声信学号,而听觉是人类感知有声语言、解析和理解其承载信息的主要手段。在会话交流的听觉信息处理过程中,人们从感知到的声学信号中解调语音承载的语言信息、副语言信息和非语言信息信息,对所关注的信息进行加工处理。从科学研究的角度看,此处理过程涉及语音声学信号的处理、环境噪声的处理、语音识别、语音合成、说话人识别、言语韵律处理以及对话理解等多个研究领域。对于将有声语言作为物理声学信号进行处理的研究领域,通常称之为“语音”,而对于将有声语言作为语言信息载体的研究领域,则称之为“言语”。
人类的言语产生功能和言语感知功能在其成长过程中共同进化、共同发育,在大脑中形成“听、说、读”多位一体的多模态言语链。从1791年冯·肯佩伦(von Kempelen)发明了第1台高度仿真人类发音机制的机械语音合成器(称为“说话机器”)至今已有230年,从1950年贝尔实验室构建了最早的语音识别系统至今已有70年。其间,人们一直遵循语音产生和感知机理对语音信号处理的原理和方法进行探究,即如何基于人的语音产生机理来解码声道特性和声源特性、如何基于人的听觉感知机理去挖掘语音的物理声学特征。本书本着“温故而知新”的原则,在介绍语音产生和感知机理的同时,对传统的语音处理技术和方法进行了简单的归纳与回顾,希望通过“重温”这些原理性的语音技术能够启迪读者的灵感,对于深入理解听觉信息处理的前沿技术有所帮助。
近年来,随着基于深度神经网络的机器学习方法的迅速发展和计算机算力的大幅度提升,在理想环境下从语音信息到文字转写的能力已经与人类的水平相当。本书在简要回顾过往成功算法的基础上,首先针对包括各种加性噪声、混响噪声以及线路回声等复杂噪声环境,探讨了语音增强的主观和客观评价方法、单声道语音增强方法以及近年来蓬勃发展的基于深度学习的语音增强方法和基于麦克风阵列的语音增强前沿技术;在回顾基于隐马尔可夫模型的经典声学建模方法的同时,探讨了结合深度学习的声学建模方法以及端到端的声学建模方法;从语音的鲁棒性特征入手,探讨了鲁棒语音识别的前端处理方法以及环境表达与声学模型的自适应方法、参数结构化自适应及自适应训练、多语种声学与语言建模、低资源小语种的语言模型建模等技术。
言语包含了语言信息、副语言信息和非语言信息。说话人的性别、年龄、嗓音、病理以及生理状态等信息虽然都属于非语言信息。但是这些反映说话人特征的信息在言语交互和其他社会活动中起着不可或缺的作用。在说话人识别方面,本书重点介绍了基于深度学习的迁移学习、多任务学习及多数据库联合学习等方法;在声纹识别方面,本书介绍了说话人特征提取的方法,并着重介绍了时变鲁棒声纹识别、短语音声纹识别和防声纹假冒闯入对策以及基于深度学习的声纹识别算法。
言语的韵律超出了语音信号本身的范畴,它一方面是交际双方的生理、心理和信息处理能力的体现,另一方面也是交际双方社会属性的体现。言语韵律的分析与建模涉及情感语音识别、语音合成以及对话理解等领域。本书从汉语的特征出发,介绍了韵律标注系统的构建,韵律分析与建模以及汉语韵律研究的挑战问题。同时介绍了情感语音声学特征的分析方法,语音的情感分类与识别以及情感语音合成等方面的技术和最新成果。
在人机融合的智能社会中,语音合成是实现人机自然对话的主要途径之一。当今,语音合成技术已经融入智能手机、智能家电等设备,服务于有声读物、信息查询与发布系统、办公自动化系统、虚拟现实与增强现实等诸多领域。尽管如此,这种技术尚有“不尽人意”的地方。为了聚焦其挑战性问题,本书首先回顾了基于隐马尔可夫模型的统计语音合成方法,介绍了其关键技术以及该语音合成方法的优缺点;然后重点介绍了结合深度学习的统计语音合成方法的关键技术包括基于深度学习的声学建模方法、基于神经网络的语音合成前端处理、基于深度学习的韵律边界预测以及神经网络波形生成模型的构建;最后介绍了基于神经网络的语音合成端到端建模方法的前沿技术。
言语理解是语音技术真正融入人类生活的“最后1公里”。本书在介绍了言语对话理解基本概念的基础上,首先讨论了言语理解算法的前沿技术,其中包括口语理解中的不确定性建模,上下文建模及领域自适应技术;然后概述了人机口语对话系统,介绍了任务型人机口语对话系统的基本架构与对话系统的性能评估问题,探讨了对话状态跟踪的前沿技术及其挑战,通过有代表性的模型进行了详细解说;最后介绍了最新的端到端的DST模型以及多领域DST模型,探讨了对话策略优化、深度强化学习在对话策略训练中的应用以及对话策略优化训练中的前沿技术。
广大科研人员希望日益深入人心的语音技术不仅能为人们的日常生活锦上添花,更应当为听力残障人士雪中送炭,提高和改善他们的生活质量。为此,本书详细地介绍了面向健康医疗的语音技术。由于大部分言语障碍和听觉障碍是由发音/听觉器官的残疾或相关脑功能受损而引起的,本书在第1章和第9章对发音/听觉器官构造和机理从不同的侧面进行了阐述,对言语处理的脑神经机理及其前沿研究进行了介绍。此外还重点介绍了听障评估与助听技术的前沿研究、嗓音障碍产生机制与客观评估技术以及言语康复训练与学习相关的前沿技术及其研究。
本书从语音信号处理的角度全面地阐述了听觉信息处理的前沿技术与挑战性问题。本书的各位编者都是各相关领域的一线专家,其中的很多技术成果是他们及其团队多年来为我国在该领域研究做出的贡献。本书可以为听觉信息处理及相关领域的专家、工程技术人员以及对语音领域感兴趣的广大教师和学生提供学术参考。
- 上海交通大学出版社有限公司旗舰店 (微信公众号认证)
- 巍巍交大 百年书香
- 扫描二维码,访问我们的微信店铺
- 随时随地的购物、客服咨询、查询订单和物流...