Page 253 - 《软件学报》2021年第8期
P. 253

包希港  等:视觉问答研究综述                                                                 2535


                 COCO-QA 数据集   [99] 、FM-IQA 数据集 [30] 、VQA 数据集 [100] 、Visual7W 数据集 [48] 、Visual Genome 数据集 [33] .
                 由于上述数据集已在综述         [5,6] 中详细介绍,在此便不多赘述,只对上述数据集存在的问题进行总结.下文主要详
                 细介绍经过数据分布平衡的 VQA-CP 数据集             [82] 、研究图像文本的 TextVQA 数据集       [90] 、研究模型鲁棒性的
                 VQA-Rephrasings 数据集 [80] 、研究复杂计数问题的 TallyQA 数据集       [94] 以及研究模型可解释性的 VQA-X 数据
                 集 [101] .
                 2.1   早期数据集分析
                    上述数据集都有其局限性,比如:DAQUAR 数据集和 COCO-QA 数据集在数据规模上比较小;DAQUAR 数
                 据集中的图片比较杂乱,提出的问题难以回答,即使是人类回答的准确率也只有 50.2%;COCO-QA 数据集中的
                 问题是由图片的注释自动生成的,存在高重复率的现象,难以支撑模型的训练和评价.相比较而言,Visual
                 Genome 数据集、Visual7W 数据集和 COCO-VQA 数据集比较大,但是却存在一定的偏见,偏见既存在于针对图
                 片的问题中,也存在于给出的答案中.在文献[102]中可以看到,仅将问题的特征输入模型进行训练就可以得到约
                 50%的准确率,这说明数据集中答案的分布不均衡.COCO-VQA 中以“是否存在一个”为开头的问题,79%的答案
                 是“是”.Visual Genome 数据集中的问题一部分是关于图像整体内容的问题,这可能导致提问中的偏见.
                    为了减少数据分布对模型的影响,Goyal 等人            [17] 在 2017 年提出了 VQA 2.0 数据集.与 VQA 1.0 数据集相比,
                 VQA 2.0 数据集规模更大,并且主要解决了答案不平衡的问题,针对两张不同的图像提问相同的问题,并且尽量
                 使得到的答案相反.但是 VQA 2.0 数据集仍存在答案分布问题,训练集和测试集的答案分布相似,模型可以利用
                 答案分布带来的偏见得到较高的准确率,降低了模型的泛化性.
                    由于评价指标存在的偏见,模型之间的性能比较不透明.Kafle 等人                   [14] 提出了 TDIUC 数据集,将问题划分为
                 12 种类型,分别为“是否有对象”“对象种类识别”“计数”“颜色”“其他属性”“动作识别”“体育活动识别”“位置推
                 理”“场景分类”“情绪理解”“用途”“错误”.TDIUC 数据集可以衡量视觉问答模型在每个类别中的性能,识别哪种
                 问题是容易的还是困难的.为了进一步减少数据集中偏见的影响,分别计算了 12 种问题类型的准确性,同时计
                 算最终的统一精度指标.总体指标是每个问题类型准确性的算术均值和调和均值,分别称为算术平均类型准确
                 性和调和平均类型准确性.与算术平均类型准确性不同,调和平均类型准确性衡量系统在所有问题类型上均具
                 有高分并偏向性能最低的类别的能力.
                    为了研究视觉问答模型的推理能力,有研究提出了 SHAPES 数据集                    [65] 和 CLEVR 数据集 [102] ,通过强调理解
                 多个对象之间的空间和逻辑关系.这是对自然图像数据集的补充,在此之前的数据集中的图像均为自然图像,其
                 中的问题不能衡量模型的推理能力.SHAPES 数据集由 244 个独特的问题组成,每个问题都与数据集中的 64 幅
                 图像有关.所有问题都是二元的,答案为是或否.SHAPES 数据集中所有图像均为 2D 形状,不能代表真实世界的
                 图像.CLEVR 数据集使用 3D 渲染的几何对象,数据集规模比 SHAPES 数据集规模大,包括 10 万张图像和
                 864 968 个问题.CLEVR 数据集中的问题测试了视觉推理的各个方面,包括属性标识、计数、比较、空间关系
                 和逻辑运算.但 SHAPES 数据集和 CLEVR 数据集低估了视觉推理的重要性,相比较而言,模型在回答问题时更
                 注重语言推理能力,比如回答“大球面左边的棕色金属物体左边的圆柱体的大小是多少?”需要严苛的语言推理
                 能力,而对于视觉推理能力则有限.
                    上述讨论的数据集的大多是纯视觉问题和常识性问题,几乎没有需要“知识库级”的问题.为了更深入研究
                 使用外部知识库的视觉问答的模型,有研究提出了 KB-VQA 数据集                   [73] 和 FVQA 数据集 [74] .KB-VQA 数据集包含
                 需要 DBpedia 中特定主题知识的问题,从 COCO 图像数据集             [103] 中收集了 700 幅图像,每幅图像收集 3 到 5 个问
                 题-答案对,共 2 402 个问题.每个问题需要不同层次的知识,从常识到百科全书知识.FVQA 数据集仅包含涉及外
                 部(非可视)信息的问题.数据集包含与 580 个视觉概念(234 个对象、205 个场景和 141 个属性)有关的 193 005
                 个候选支持事实,总共有 4 608 个问题.FVQA 数据集在每个问题/答案中都包含一个支持的事实(外部知识).

                 2.2   VQA-CP数据集
                    目前,数据集中存在训练集强语言相关性的问题,比如回答“香蕉是什么颜色的?”,回答通常是“黄色”,而这
   248   249   250   251   252   253   254   255   256   257   258