Page 254 - 《软件学报》2021年第8期

P. 254

2536 Journal of Software 软件学报 Vol.32, No.8, August 2021

种情况导致模型不需要查看图片的内容就可以回答这类问题.出现这种情况的一个原因是训练集和测试集有
着相似的数据分布,模型会根据在训练集中产生的固有记忆偏差,忽略图像的内容,而在测试集中还能得到可观
的性能.
针对训练集强语言优先级的问题,Aishwarya 等人 [82] 对数据集 VQA v1 和 VQA v2 重新划分,分别得到了
VQA-CP v1 和 VQA-CP v2 数据集,使得每个类型问题的答案分布在训练集和测试集之间是不同的.比如“什么
运动?”这类问题,在训练集中最常见的答案是网球,而在测试集却是滑冰.通过对问题类型和答案类型的重新划
分,能够减少在测试时依赖训练过程中产生的语言偏见.
在 VQA-CP 数据集中,测试集覆盖了绝大部分训练集中出现的概念,覆盖率在 VQA-CP v1 中是 98.04%,
VQA-CP v2 是 99.01%.VQA-CP v1 的训练集前 1 000 个答案中,测试集答案的覆盖率为 95.07%(VQA-CP v2 为
95.72%),VQA- CP v1 训练集由 118K 张图像、245K 个问题和 2.5M 个答案组成(VQA-CP v2 训练集由 121K 幅
图像、438K 个问题和 4.4M 个答案组成).VQA-CP v1 测验集由 87K 幅图像、125K 个问题和 13M 个答案组成
(VQA-CP v2 测试集的 98K 幅图像、220K 个问题和 22M 个答案).Aishwarya 等人 [82] 报告了基线模型和现有视
觉问答模型在 VQA-CP v1 和 VQA-CP v2 训练分割上的性能,几乎所有模型都出现了性能的大幅下降,这证明了
之前的视觉问答模型利用了训练集的语言优先级.
2.3 TextVQA数据集
当前提出的视觉问答模型对于回答有关于图像文本问题的准确率很低,为了促进这类问题的研究,Singh 等
人 [90] 提出了 TextVQA 数据集.TextVQA 要求模型阅读并推理图像中的文本,以回答关于它们的问题.具体来说,
模型需要合并图像中出现的一种新的文本形式并对其进行推理,以回答 TextVQA 数据集中问题.其采用了 Open
Images v3 数据集内的图像,选取的图像中包含文本(如广告牌、交通标志等),每个类别选取 100 幅图像.使用
OCR 模型 Rosetta [104] 计算图像中的 OCR 盒的数量,将每个类别的 OCR 盒子的平均数量归一化,并用作每个类
别的权重,以从类别中采样图像.从 Open Images v3 数据集的训练集中采样得到 TextVQA 数据集的训练集和验
证集,从 Open Images v3 数据集的测试集采样得到 TextVQA 的测试集.每张图像有 1~2 个问题,每个问题由 10
名注释者给出答案.数据集共包含 45 336 个问题,其中,37 912 个问题是唯一的.TextVQA v0.51 中训练集包括 34
602 个问题、21 953 幅图像;验证集包括 5 000 个问题、3 166 幅图像;测试集包括 5 734 个问题、3 289 幅图像.
2.4 VQA-Rephrasings数据集
目前的视觉问答模型的鲁棒性不强,对于同一问题的不同表述,模型会给出不同的答案.为了进一步研究模
型一致性和鲁棒性,提出了 VQA-Rephrasings 数据集 [80] .VQA-Rephrasings 数据集来自于 VQA v2 的验证数据集,
其是对关于 4 万张图的 4 万个问题的改述生成的.这是首个能够进行一致性和鲁棒性视觉问答模型评估的数据
集.数据集一共包含了 214 354 个问题和 40 504 张图片,随机采样了 40 504 个问题构成采样子集.作者用两阶段
的方式对每个问题用人工标注的方式生成 3 个改写问题.
• 第 1 阶段,根据原始的问题-答案对改写问题,改写后的问题回答要与原始答案一致.
• 第 2 阶段,对第 1 阶段的问题进行语法和语义检查,不合规范的抛弃.
最后获得了 162 016 个问题(包括改写的 121 512 个和原始的 40 504 个)和 40 504 张图片,平均每张图片对
应约 3 个改写问题.

2.5 TallyQA数据集
回答计数问题对于当前的视觉问答模型来说是一个严峻的挑战,但是当前存在的综合数据集的计数问题
占比并不高,例如 COCO-QA 数据集 [99] 中约占 7%,VQA v1 数据集 [100] 中约占 10%,VQA v2 数据集 [17] 约占 10%
[4]
以及 TDIUC 数据集约占 20%.还有一些针对计数任务的 VQA 数据集如 CountQA 数据集 [105] 和 HowMany-QA
数据集 [106] 的规模并不大,并且上述数据集中很少有复杂的计数问题.简单的问题可以只用一个目标检测算法来
解决,因此不能恰当地测试系统回答任意计数问题的能力,包括那些需要推理或属性识别的问题.
Acharya 等人 [94] 提出了新的数据集 TallyQA,旨在评估简单和复杂的计数问题,使计数问题和其他问题得到

249 250 251 252 253 254 255 256 257 258 259