Page 241 - 《软件学报》2021年第8期
P. 241

包希港  等:视觉问答研究综述                                                                 2523


                 度学习的不断发展,许多计算机视觉任务取得了巨大的进展,如图像分类                         [1,2] 、物体检测 [3,4] 和动作识别 [5,6] .但是
                 上述任务只需对图像进行感知,不需要对图像进行整体的理解和推理.图像字幕任务                              [7−9] 首先将两个领域结合
                 起来,利用图像和文本作为输入训练模型以描述图像中的内容.
                    文本问答系统      [10,11] 在自然语言处理领域已经有了广泛的研究,不论是科研界还是工业界都有众多成果涌
                 现,如淘宝的智能客服.随着问答系统在自然语言处理领域的成功应用,有研究提出将问答系统应用至视觉领
                 域.随着自媒体的不断发展,图片和视频的数据量爆炸性增长,图片和视频等视觉信息的表达能力和信息涵盖能
                 力比文本更强,如何通过交互式的方法从视觉信息中提取信息、过滤信息以及推理信息,成为了一个亟需解决
                 的问题,视觉问答任务在这一背景下被提出.
                    视觉问答任务是以图像(或视频)和与图像(或视频)有关的文本问题的多模态信息作为计算机的输入,计算
                 机根据图片得到问题的正确答案.本文的内容主要是对基于图片的视觉问答任务进行总结,如图 1 中所示.视觉
                 问答任务如今分为开放式和多项选择形式两个子任务:开放式的视觉问答任务答案不确定,由计算机给出正确
                 答案,答案通常是几个单词或者一个简单的短语;多项选择形式的视觉问答任务存在候选答案,计算机在已给定
                 的候选答案中选择正确答案.视觉问答任务与其他计算机视觉任务相比更具有挑战性:视觉问答任务中要回答
                 的问题是在运行时给出,需要处理视觉和文本的多模态信息,问题答案的形式和如何得出答案是未知的;相反,
                 其他计算机视觉任务由算法回答的单个问题是预先确定的,只有输入图像发生变化                              [12] .视觉问答任务的问题是
                 任意类型的,问题的类型主要包含如下几类:
                    •   物体识别——图像中有什么?
                    •   物体检测——图像中存在狗吗?
                    •   二元问题——包含是否的问题
                    •   属性分类——图像中的狗是什么颜色?
                    •   场景分类——图像中的场景最可能是?
                    •   计数问题——图像中共有几只狗?
                    •   文本相关——图像中指示牌的内容是什么?
                    除此之外,问题可能更为复杂,可能涉及图像中对象间的空间关系或者需要一定的外部知识,比如回答“图
                 中的动物属于哺乳动物吗?”时需要知道哺乳动物含有哪些动物.视觉问答任务包含了大部分其他经典的计算
                 机视觉任务,并且需要对图像进行一定的推理.

























                                           Fig.1    Samples of visual question answering
                                                   图 1   视觉问答的样本
   236   237   238   239   240   241   242   243   244   245   246