电子工业出版社精品店店铺主页二维码
电子工业出版社精品店
微信扫描二维码,访问我们的微信店铺

视觉问答 理论与实践 视觉问答的基础理论 关键模型和代表性数据库 大语言模型时代下视觉问答的发展趋势书籍

89.00
运费: 免运费
视觉问答 理论与实践 视觉问答的基础理论 关键模型和代表性数据库 大语言模型时代下视觉问答的发展趋势书籍 商品图0
视觉问答 理论与实践 视觉问答的基础理论 关键模型和代表性数据库 大语言模型时代下视觉问答的发展趋势书籍 商品缩略图0

商品详情

书名:视觉问答:理论与实践
定价:118.0
ISBN:9787121475313
作者:Qi Wu(吴琦),Peng Wang(王鹏 ),Xin Wang(王鑫),Xiaodong He(何晓冬),Wenwu Zhu(朱文武)
版次:*1版
出版时间:2024-07

内容提要:
视觉问答任务要求机器根据指定的视觉图像内容, 对单轮或多轮的自然语言问题进行作答。其本质上是一个多学科的研究问题,涉及计算机视觉、自然语言处理、知识表示与推理等。本书共5 部分,*1 部分介绍在计算机视觉和自然语言处理领域广泛使用的基本方法和技术,包括卷积神经网络、序列建模和注意力机制等。本书将视觉问答分为图像和视频方法。*2 部分将图像视觉问答进一步分为五类,即联合嵌入、注意力机制、记忆网络、组合推理和图神经网络。此外,概述基于图像的其他视觉问答任务,例如基于知识的视觉问答、视觉问答的视觉和语言预训练。第3 部分讨论基于视频的视觉问答及其相关模型。第4 部分讨论与视觉问答相关的*级任务,包括具身视觉问答、医学视觉问答、基于文本的视觉问答、视觉问题生成、视觉对话和指代表达理解,它们是视觉问答任务的扩展。第5 部分对该领域进行总结和展望,讨论视觉问答领域的未来研究方向。



作者简介:
吴琦,澳大利亚阿德莱德大学*级讲师(副教授),博士生导师,澳大利亚青年学者基金获得者 (Australian Research Council DECRA Fellow),澳大利亚机器人视觉研究中心(ACRV)vision-language课题组组长,澳大利亚科学院罗素奖获得者。吴琦博士于2015年在英国巴斯大学获得博士学位,致力于计算机视觉领域研究,尤其关注于计算机视觉-自然语言相关领域的研究。吴琦博士在CVPR,ICCV,ECCV, NeurIPS, TPAMI等多个国际会议和期刊发表论文七十余篇,吴琦博士亦担任TPAMI,IJCV,TIP,CVPR,NIPS,ACL等学术期刊会议审稿人以及ICCV2021 领域主席。


媒体评论:
涵盖视觉问答领域的基础理论、模型、数据集及未来方向。系统介绍计算机视觉和自然语言处理的概念和方法。通过多样化的应用程序和任务探索使用不同的模型解决现实世界的视觉问答问题。囊括视觉问答的*级任务,包括具身视觉问答、医学视觉问答、基于文本的视觉问答、视觉问题生成、视觉对话和指代表达理解等。

目录:
目录
*1 章简介..................................................................1
1.1 视觉问答的动机........................................................1
1.2 人工智能任务中的视觉问答...........................................4
1.3 视觉问答类别..........................................................5
1.3.1 数据分类驱动......................................................6
1.3.2 任务分类驱动......................................................7
1.3.3 其他..............................................................7
参考文献.....................................................................8

*1 部分基础理论
*2 章深度学习基础......................................................15
2.1 神经网络...............................................................15
2.2 卷积神经网络..........................................................17
2.3 循环神经网络及变体...................................................18
2.4 编码器-解码器结构....................................................20
2.5 注意力机制.............................................................20
2.6 记忆网络...............................................................21
2.7 Transformer 网络和BERT............................................22
2.8 图神经网络.............................................................24
参考文献.....................................................................25

第3 章问答基础知识......................................................27
3.1 基于规则的方法........................................................27
3.2 基于信息检索的方法...................................................28
3.3 问答的神经语义解析...................................................29
3.4 问答知识库.............................................................29
参考文献.....................................................................30

*2 部分图像视觉问答
第4 章经典视觉问答......................................................35
4.1 简介....................................................................35
4.2 数据集..................................................................36
4.3 生成与分类:两种回答策略...........................................40
4.4 联合嵌入...............................................................40
4.4.1 序列到序列编码器-解码器模型......................................40
4.4.2 双线性编码模型....................................................43
4.5 注意力机制.............................................................45
4.5.1 堆叠注意力网络....................................................45
4.5.2 分层问题-图像协同注意力..........................................47
4.5.3 自底向上和自顶向下的注意力.......................................49
4.6 记忆网络...............................................................51
4.6.1 改进的动态记忆网络...............................................51
4.6.2 记忆增强网络......................................................52
4.7 组合推理...............................................................54
4.7.1 神经模块网络......................................................55
4.7.2 动态神经模块网络..................................................56
4.8 图神经网络.............................................................58
4.8.1 图卷积网络........................................................58
4.8.2 图注意力网络......................................................60
4.8.3 视觉问答图卷积网络...............................................62
4.8.4 视觉问答图注意力网络.............................................63
参考文献.....................................................................66

第5 章基于知识的视觉问答..............................................71
5.1 简介....................................................................71
5.2 数据集..................................................................72
5.3 知识库..................................................................74
5.3.1 数据库百科........................................................74
5.3.2 ConceptNet........................................................74
5.4 知识嵌入...............................................................75
5.4.1 文字对矢量表示法..................................................75
5.4.2 基于BERT 的表征.................................................78
5.5 问题-查询转换.........................................................79
5.5.1 基于查询映射的方法...............................................79
5.5.2 基于学习的方法....................................................81
5.6 查询知识库的方法.....................................................82
5.6.1 RDF ..............................................................82
5.6.2 记忆网查询........................................................83
参考文献.....................................................................84

第6 章视觉问答的视觉和语言预训练..................................88
6.1 简介....................................................................88
6.2 常规预训练模型........................................................89
6.2.1 ELMo .............................................................89
6.2.2 GPT ..............................................................89
6.2.3 MLM .............................................................90
6.3 视觉和语言预训练的常用方法.........................................93
6.3.1 单流方法..........................................................94
6.3.2 双流方法..........................................................96
6.4 视觉问答及其下游任务微调...........................................98
参考文献.....................................................................101

第3 部分视频视觉问答
第7 章视频表征学习.....................................................·105
7.1 人工标注的局部视频描述符...........................................105
7.2 数据驱动的深度学习的视频特征表示.................................107
7.3 视频表征的自监督学习................................................109
参考文献.....................................................................110

第8 章视频问答...........................................................·112
8.1 简介....................................................................112
8.2 数据集..................................................................112
8.2.1 多步推理数据集....................................................113
8.2.2 单步推理数据集....................................................116
8.3 使用编码器-解码器结构的传统视频时空推理.........................118
参考文献.....................................................................123

第9 章视频问答的*级模型.............................................·126
9.1 时空特征注意力........................................................126
9.2 记忆网络...............................................................129
9.3 时空图神经网络........................................................130
参考文献.....................................................................132

第4 部分视觉问答*级任务
*10 章具身视觉问答...................................................·137
10.1 简介...................................................................137
10.2 模拟器、数据集和评估标准..........................................138
10.2.1 模拟器...........................................................138
10.2.2 数据集...........................................................140
10.2.3 评估指标.........................................................141
10.3 语言引导的视觉导航.................................................142
10.3.1 视觉和语言导航...................................................142
10.3.2 远程对象定位.....................................................147
10.4 具身问答..............................................................148
10.5 交互式问答............................................................150
参考文献.....................................................................151

*11 章医学视觉问答...................................................·153
11.1 简介...................................................................153
11.2 数据集.................................................................154
11.3 医学视觉问答的经典方法............................................156
11.4 医学视觉问答的元学习方法..........................................159
11.5 基于BERT 的医学视觉问答方法....................................160
参考文献.....................................................................162

*12 章基于文本的视觉问答...........................................·165
12.1 简介...................................................................165
12.2 数据集.................................................................166
12.2.1 TextVQA.........................................................166
12.2.2 ST-VQA .........................................................167
12.2.3 OCR-VQA .......................................................168
12.3 OCR 标记表示........................................................168
12.4 简单融合模型.........................................................169
12.5 基于Transformer 的模型............................................170
12.6 图模型.................................................................172
参考文献.....................................................................173

*13 章视觉问题生成...................................................·176
13.1 简介...................................................................176
13.2 数据融合中的视觉问题生成..........................................176
13.2.1 从答案生成问题...................................................177
13.2.2 从图像生成问题...................................................178
13.2.3 对抗学习.........................................................179
13.3 作为视觉理解问题的视觉问题生成..................................180
参考文献.....................................................................182

*14 章视觉对话.........................................................·185
14.1 简介...................................................................185
14.2 数据集.................................................................186
14.3 注意力机制............................................................187
14.3.1 具有注意力的分层循环编码器和记忆网络...........................187
14.3.2 历史条件图像注意力编码器........................................188
14.3.3 序列协同注意力生成模型..........................................190
14.3.4 协同网络.........................................................192
14.4 视觉指代表达理解....................................................194
14.5 基于图的方法.........................................................195
14.5.1 视觉表示的场景图................................................196
14.5.2 用于视觉和对话表示的图卷积网络.................................197
14.6 预训练模型............................................................199
14.6.1 VD-BERT ........................................................200
14.6.2 Visual-Dialog BERT ..............................................201
参考文献.....................................................................202

*15 章指代表达理解...................................................·204
15.1 简介...................................................................204
15.2 数据集.................................................................205
15.3 二阶段模型............................................................206
15.3.1 联合嵌入.........................................................206
15.3.2 协同注意力模型...................................................208
15.3.3 图模型...........................................................209
15.4 一阶段模型............................................................211
15.5 推理过程理解.........................................................212
参考文献.....................................................................213

第5 部分总结与展望
*16 章总结与展望......................................................·219
16.1 总结...................................................................219
16.2 展望...................................................................219
16.2.1 视觉问答的可解释性..............................................219
16.2.2 消除偏见.........................................................220
16.2.3 附加设置及应用...................................................221
参考文献.....................................................................221
电子工业出版社精品店店铺主页二维码
电子工业出版社精品店
扫描二维码,访问我们的微信店铺

视觉问答 理论与实践 视觉问答的基础理论 关键模型和代表性数据库 大语言模型时代下视觉问答的发展趋势书籍

手机启动微信
扫一扫购买

收藏到微信 or 发给朋友

1. 打开微信,扫一扫左侧二维码

2. 点击右上角图标

点击右上角分享图标

3. 发送给朋友、分享到朋友圈、收藏

发送给朋友、分享到朋友圈、收藏

微信支付

支付宝

扫一扫购买

收藏到微信 or 发给朋友

1. 打开微信,扫一扫左侧二维码

2. 点击右上角图标

点击右上角分享图标

3. 发送给朋友、分享到朋友圈、收藏

发送给朋友、分享到朋友圈、收藏