Page 252 - 《软件学报》2021年第8期
P. 252

2534                                   Journal of Software  软件学报 Vol.32, No.8,  August 2021

                 语言相关性的方法均是引入一个仅考虑问题的分支,但是仍未从根本上解决问题,目前的模型在 VQA-CP 数据
                 集上的准确率仍然很低.针对其他鲁棒性问题,比如有关于图片中文本的问题依赖于光学字符识别模块.计数问
                 题是所有类型中最困难的一种问题,当前最有效的方法是将图中的对象和对象间的关系视为图,模型的准确率
                 与目标检测的准确率有关.模型对于问题过于敏感表明模型对于问题并没有真正地理解,仍需要大量数据训练
                 网络.模型对于自然图像和合成图像之间的泛化能力差的主要原因是自然图像中的信息过于复杂,目前的特征
                 表示能力不足以对其进行推理.
                 1.6   模型效果介绍
                    表 1~表 3 介绍了近年来大部分最先进的模型在各个数据集上表现,并且介绍了模型使用的方法以及使用
                 的视觉和文本特征.大部分模型使用了注意力方法,所有模型采用自底向上注意力得到的视觉特征,答案的生成
                 方式均为分类.表 1 中,VQA 2.0 数据集含有验证测试集和标准测试集,模型在标准测试集上的效果略好于验证
                 测试集.表 2 中,目前的模型在 VQA-CP 数据集上的效果欠佳,仍需要进一步的提高.表 3 中报告了各个模型在
                 TDIUC 数据集上的整体准确率(All)、每一类型准确率的算术均值(A-MPT)以及每一类型准确率的调和均值
                 (H-MPT).
                                     Table 1    State-of-the-art comparison on the VQA 2.0 dataset
                                              表 1   数据集 VQA 2.0 的最新比较
                                     准确率       联合嵌入     注意力   组合    外部   鲁棒性    答案   视觉       文本
                       模型方法
                                 test-dev  test-std  方法   方法   方法   知识    研究    方式   特征       特征
                       BLOCK [38]  67.58  67.92   √      √      −    −     −    分类   UpDn  Skip-thought
                       MuRel  [63]  68.03  68.41  √      √      −    −     −    分类   UpDn     GRU
                      RAMEN [95]  65.96  65.96    √      −      −    −     √    分类   UpDn     GRU
                       MCAN [57]  70.63  70.90    √      √      √    −     −    分类   UpDn  GloVe+LSTM
                        CTI [42]  66.00  67.40    √      √      −    −     −    分类   UpDn     GRU
                     MLIN-BERT  [41]  71.09  71.27  √    √      −    −     −    分类   UpDn   Transformer
                       ReGAT [64]  70.27  70.58   √      √      −    −     −    分类   UpDn     GRU
                                     Table 2    State-of-the-art comparison on the VQA-CP dataset
                                              表 2   数据集 VQA-CP 的最新比较
                                            联合嵌入    注意力    组合   外部   鲁棒性    答案    视觉        文本
                         模型方法        准确率
                                             方法      方法    方法   知识    研究    方式    特征        特征
                          CSS [83]   58.95    √       √     −    −     −    分类   UpDn       LSTM
                     Learned-Mixin+H [87]  52.05  √   √     −    −     √    分类   UpDn       LSTM
                         RUBi [86]   47.11    √       √     −    −     √    分类   UpDn  GRU+Skip-thought
                         NSM [96]    45.80    √       −     √    −     −    分类   UpDn       GloVe
                         GVQA [82]   31.30    √       √     −    −     √    分类   UpDn       LSTM
                                      Table 3    State-of-the-art comparison on the TDIUC dataset
                                               表 3   数据集 TDIUC 的最新比较
                                    准确率          联合嵌入    注意力    组合    外部   鲁棒性    答案   视觉      文本
                    模型方法
                              All  A-MPT  H-MPT    方法     方法    方法    知识    研究    方式   特征      特征
                    BLOCK [38]  85.96  71.84  65.52  √     √     −     −     −    分类   UpDn  Skip-thought
                     MuRel [63]  88.20  71.56  59.30  √    √     −     −     −    分类   UpDn    GRU
                    RAMEN [95]  86.86  72.52  −     √      −     −     −     √    分类   UpDn    GRU
                     DFAF [59]  85.55  −    −       √      √     −     −     −    分类   UpDn    GRU
                     QTA [97]  85.03  69.11  60.08  √      √     −     −     −    分类   UpDn    LSTM
                     MLI  [41]  87.60  −    −       √      √     −     −     −    分类   UpDn  Transformer

                 2    数据集介绍

                    自从视觉问答任务被提出,大量数据集随之出现.视觉问答数据集的一般形式为〈图像,问题,答案〉的三元组,
                 部分数据集还带有关于图像的注释.2014 年~2016 年,主要有 6 个包含自然图像的数据集:DAQUAR 数据集                          [98] 、
   247   248   249   250   251   252   253   254   255   256   257