Page 252 - 《软件学报》2021年第8期
P. 252
2534 Journal of Software 软件学报 Vol.32, No.8, August 2021
语言相关性的方法均是引入一个仅考虑问题的分支,但是仍未从根本上解决问题,目前的模型在 VQA-CP 数据
集上的准确率仍然很低.针对其他鲁棒性问题,比如有关于图片中文本的问题依赖于光学字符识别模块.计数问
题是所有类型中最困难的一种问题,当前最有效的方法是将图中的对象和对象间的关系视为图,模型的准确率
与目标检测的准确率有关.模型对于问题过于敏感表明模型对于问题并没有真正地理解,仍需要大量数据训练
网络.模型对于自然图像和合成图像之间的泛化能力差的主要原因是自然图像中的信息过于复杂,目前的特征
表示能力不足以对其进行推理.
1.6 模型效果介绍
表 1~表 3 介绍了近年来大部分最先进的模型在各个数据集上表现,并且介绍了模型使用的方法以及使用
的视觉和文本特征.大部分模型使用了注意力方法,所有模型采用自底向上注意力得到的视觉特征,答案的生成
方式均为分类.表 1 中,VQA 2.0 数据集含有验证测试集和标准测试集,模型在标准测试集上的效果略好于验证
测试集.表 2 中,目前的模型在 VQA-CP 数据集上的效果欠佳,仍需要进一步的提高.表 3 中报告了各个模型在
TDIUC 数据集上的整体准确率(All)、每一类型准确率的算术均值(A-MPT)以及每一类型准确率的调和均值
(H-MPT).
Table 1 State-of-the-art comparison on the VQA 2.0 dataset
表 1 数据集 VQA 2.0 的最新比较
准确率 联合嵌入 注意力 组合 外部 鲁棒性 答案 视觉 文本
模型方法
test-dev test-std 方法 方法 方法 知识 研究 方式 特征 特征
BLOCK [38] 67.58 67.92 √ √ − − − 分类 UpDn Skip-thought
MuRel [63] 68.03 68.41 √ √ − − − 分类 UpDn GRU
RAMEN [95] 65.96 65.96 √ − − − √ 分类 UpDn GRU
MCAN [57] 70.63 70.90 √ √ √ − − 分类 UpDn GloVe+LSTM
CTI [42] 66.00 67.40 √ √ − − − 分类 UpDn GRU
MLIN-BERT [41] 71.09 71.27 √ √ − − − 分类 UpDn Transformer
ReGAT [64] 70.27 70.58 √ √ − − − 分类 UpDn GRU
Table 2 State-of-the-art comparison on the VQA-CP dataset
表 2 数据集 VQA-CP 的最新比较
联合嵌入 注意力 组合 外部 鲁棒性 答案 视觉 文本
模型方法 准确率
方法 方法 方法 知识 研究 方式 特征 特征
CSS [83] 58.95 √ √ − − − 分类 UpDn LSTM
Learned-Mixin+H [87] 52.05 √ √ − − √ 分类 UpDn LSTM
RUBi [86] 47.11 √ √ − − √ 分类 UpDn GRU+Skip-thought
NSM [96] 45.80 √ − √ − − 分类 UpDn GloVe
GVQA [82] 31.30 √ √ − − √ 分类 UpDn LSTM
Table 3 State-of-the-art comparison on the TDIUC dataset
表 3 数据集 TDIUC 的最新比较
准确率 联合嵌入 注意力 组合 外部 鲁棒性 答案 视觉 文本
模型方法
All A-MPT H-MPT 方法 方法 方法 知识 研究 方式 特征 特征
BLOCK [38] 85.96 71.84 65.52 √ √ − − − 分类 UpDn Skip-thought
MuRel [63] 88.20 71.56 59.30 √ √ − − − 分类 UpDn GRU
RAMEN [95] 86.86 72.52 − √ − − − √ 分类 UpDn GRU
DFAF [59] 85.55 − − √ √ − − − 分类 UpDn GRU
QTA [97] 85.03 69.11 60.08 √ √ − − − 分类 UpDn LSTM
MLI [41] 87.60 − − √ √ − − − 分类 UpDn Transformer
2 数据集介绍
自从视觉问答任务被提出,大量数据集随之出现.视觉问答数据集的一般形式为〈图像,问题,答案〉的三元组,
部分数据集还带有关于图像的注释.2014 年~2016 年,主要有 6 个包含自然图像的数据集:DAQUAR 数据集 [98] 、