Page 256 - 《软件学报》2021年第8期
P. 256

2538                                   Journal of Software  软件学报 Vol.32, No.8,  August 2021

                    在 VQA 数据集中,问题类型和答案的分布偏斜.比如在“是/否”问题中,71%的问题的答案为“是”,如果每个
                 测试问题都得到同等对待,则很难评估在较罕见的问题类型上的表现并弥补偏差.Kafle 等人                              [14] 提出了多种措
                 施来补偿偏差和偏斜分布.由于 TDIUC 数据集             [14] 的问题分为 12 种类型,分别计算了 12 种问题类型的准确性.
                 目前,大部分研究将问题类型分为计数、是/否以及其他这 3 类.总体指标是每个问题类型的所有准确性的算术
                 或调和均值,调和均值衡量标准具有在所有问题类型上均具有高分并偏向性能最低的类别的能力.使用归一化
                 的指标对问题类型内答案分布不平衡补偿偏差,计算每个唯一答案的准确性,然后将其平均化为问题类型的准
                 确率.若模型未归一化的分数与归一化的分数之间存在巨大差异,说明该模型无法推广到更稀有的答案.
                 4    挑战和展望

                    视觉问答任务是计算机视觉领域一个非常严峻的挑战,其拥有非常广泛的应用前景.尽管近几年视觉问答
                 任务发展迅速,各种通用数据集或某一特定问题的数据集被不断提出,然而目前的视觉问答模型尚不能实现真
                 正意义上的问答,不能够与人类进行良好的互动,其仍需要不断地进行研究.总的来说,目前的视觉问答任务仍
                 处于一个起步阶段,各个方面还存在着诸多问题和挑战.比如:
                    (1)  特征表示能力不足
                    视觉问答模型的输入特征在提取的过程将图像和文本信息的部分信息丢失,目前的视觉特征和文本特征
                 不足以进行问题回答的推理,这依赖于日后得到更好的特征提取和特征表示方法的出现.目前,传统的特征融合
                 方法过于简单,日后需研究如何将视觉特征和文本特征更好地进行融合,使得融合后的特征含有更丰富的信息.
                 目前的特征融合后得到的特征一般用来作为分类器的输入,日后的工作应更好地建立融合后特征与答案之间
                 的关联.
                    (2)  模型评估能力不足
                    当前,大部分研究将视觉问答任务视为多分类任务,但多分类任务只能得到训练集中出现过的答案,这不符
                 合人工智能的最终目标.生成式答案则更符合正常的逻辑,但其受限于答案的评估,目前的方法尚不能准确地评
                 估预测答案是否与地标答案一致.其中,句子答案中存在语义、语法等问题,需要更加准确的评价标准对生成式
                 视觉问答任务进行评估.
                    (3)  模型推理能力不足
                    当前,大部分视觉问答模型着力在得到更好的视觉和文本特征,缺乏根据问题对图片内容进行推理的能力,
                 组合式模型在自然图像上表现仍不尽人意,不能将自然图像转化成推理的过程.虽然注意力机制能使模型更加
                 关注某一重要区域或单词,但是模型在推理方面仍缺乏可解释性.
                    (4)  模型的鲁棒性与泛化能力不足
                    近年来,许多研究集中在如何消除视觉问答模型的语言相关性,消融研究                         [11,92] 显示,仅问题模型的性能比仅
                 图像模型好得多.这表明模型更倾向于利用文本信息回答问题.由于视觉问答数据集存在偏见,模型会利用数据
                 集分布偏见达到很好的效果,但这导致训练集与测试集的结果有很大差异,模型的鲁棒性和泛化能力需要进一
                 步提高,消除模型的表面相关性是实现这一目标的重要步骤.
                    因此,未来的研究工作可以从以下方面展开.
                    (1)  构建更全面均衡的数据集
                    当前的通用数据集在衡量各项能力时并不均衡,比如有关于图像中文本、计数等问题在通用数据集中的比
                 例不高.不均衡的数据集并不能准确地衡量视觉问答模型的能力.同时,当前针对模型的评价标准仍需要提高,
                 进一步研究对于生成式答案的视觉问答模型的评价标准.
                    (2)  提高模型的可解释性
                    当人类回答问题时,会根据问题进行推理,寻找可以支持答案的证据.在构建数据集时加入支持证据,让模
                 型在每一次预测时提供回答问题的支持证据,基于 VQA-X 数据集进一步提高模型的可解释性,将目前注意力方
                 法中的注意力权重可以着重表示重要区域的方式与文本解释相结合,研究模型给出更合理的解释方式,这也是
   251   252   253   254   255   256   257   258   259   260   261