Page 253 - 《软件学报》2021年第8期
P. 253
包希港 等:视觉问答研究综述 2535
COCO-QA 数据集 [99] 、FM-IQA 数据集 [30] 、VQA 数据集 [100] 、Visual7W 数据集 [48] 、Visual Genome 数据集 [33] .
由于上述数据集已在综述 [5,6] 中详细介绍,在此便不多赘述,只对上述数据集存在的问题进行总结.下文主要详
细介绍经过数据分布平衡的 VQA-CP 数据集 [82] 、研究图像文本的 TextVQA 数据集 [90] 、研究模型鲁棒性的
VQA-Rephrasings 数据集 [80] 、研究复杂计数问题的 TallyQA 数据集 [94] 以及研究模型可解释性的 VQA-X 数据
集 [101] .
2.1 早期数据集分析
上述数据集都有其局限性,比如:DAQUAR 数据集和 COCO-QA 数据集在数据规模上比较小;DAQUAR 数
据集中的图片比较杂乱,提出的问题难以回答,即使是人类回答的准确率也只有 50.2%;COCO-QA 数据集中的
问题是由图片的注释自动生成的,存在高重复率的现象,难以支撑模型的训练和评价.相比较而言,Visual
Genome 数据集、Visual7W 数据集和 COCO-VQA 数据集比较大,但是却存在一定的偏见,偏见既存在于针对图
片的问题中,也存在于给出的答案中.在文献[102]中可以看到,仅将问题的特征输入模型进行训练就可以得到约
50%的准确率,这说明数据集中答案的分布不均衡.COCO-VQA 中以“是否存在一个”为开头的问题,79%的答案
是“是”.Visual Genome 数据集中的问题一部分是关于图像整体内容的问题,这可能导致提问中的偏见.
为了减少数据分布对模型的影响,Goyal 等人 [17] 在 2017 年提出了 VQA 2.0 数据集.与 VQA 1.0 数据集相比,
VQA 2.0 数据集规模更大,并且主要解决了答案不平衡的问题,针对两张不同的图像提问相同的问题,并且尽量
使得到的答案相反.但是 VQA 2.0 数据集仍存在答案分布问题,训练集和测试集的答案分布相似,模型可以利用
答案分布带来的偏见得到较高的准确率,降低了模型的泛化性.
由于评价指标存在的偏见,模型之间的性能比较不透明.Kafle 等人 [14] 提出了 TDIUC 数据集,将问题划分为
12 种类型,分别为“是否有对象”“对象种类识别”“计数”“颜色”“其他属性”“动作识别”“体育活动识别”“位置推
理”“场景分类”“情绪理解”“用途”“错误”.TDIUC 数据集可以衡量视觉问答模型在每个类别中的性能,识别哪种
问题是容易的还是困难的.为了进一步减少数据集中偏见的影响,分别计算了 12 种问题类型的准确性,同时计
算最终的统一精度指标.总体指标是每个问题类型准确性的算术均值和调和均值,分别称为算术平均类型准确
性和调和平均类型准确性.与算术平均类型准确性不同,调和平均类型准确性衡量系统在所有问题类型上均具
有高分并偏向性能最低的类别的能力.
为了研究视觉问答模型的推理能力,有研究提出了 SHAPES 数据集 [65] 和 CLEVR 数据集 [102] ,通过强调理解
多个对象之间的空间和逻辑关系.这是对自然图像数据集的补充,在此之前的数据集中的图像均为自然图像,其
中的问题不能衡量模型的推理能力.SHAPES 数据集由 244 个独特的问题组成,每个问题都与数据集中的 64 幅
图像有关.所有问题都是二元的,答案为是或否.SHAPES 数据集中所有图像均为 2D 形状,不能代表真实世界的
图像.CLEVR 数据集使用 3D 渲染的几何对象,数据集规模比 SHAPES 数据集规模大,包括 10 万张图像和
864 968 个问题.CLEVR 数据集中的问题测试了视觉推理的各个方面,包括属性标识、计数、比较、空间关系
和逻辑运算.但 SHAPES 数据集和 CLEVR 数据集低估了视觉推理的重要性,相比较而言,模型在回答问题时更
注重语言推理能力,比如回答“大球面左边的棕色金属物体左边的圆柱体的大小是多少?”需要严苛的语言推理
能力,而对于视觉推理能力则有限.
上述讨论的数据集的大多是纯视觉问题和常识性问题,几乎没有需要“知识库级”的问题.为了更深入研究
使用外部知识库的视觉问答的模型,有研究提出了 KB-VQA 数据集 [73] 和 FVQA 数据集 [74] .KB-VQA 数据集包含
需要 DBpedia 中特定主题知识的问题,从 COCO 图像数据集 [103] 中收集了 700 幅图像,每幅图像收集 3 到 5 个问
题-答案对,共 2 402 个问题.每个问题需要不同层次的知识,从常识到百科全书知识.FVQA 数据集仅包含涉及外
部(非可视)信息的问题.数据集包含与 580 个视觉概念(234 个对象、205 个场景和 141 个属性)有关的 193 005
个候选支持事实,总共有 4 608 个问题.FVQA 数据集在每个问题/答案中都包含一个支持的事实(外部知识).
2.2 VQA-CP数据集
目前,数据集中存在训练集强语言相关性的问题,比如回答“香蕉是什么颜色的?”,回答通常是“黄色”,而这