Page 248 - 《软件学报》2021年第8期
P. 248
2530 Journal of Software 软件学报 Vol.32, No.8, August 2021
网络是一个整体,它是由多个模块化网络组合而成的.根据每个问题定制网络模型,神经模块网络是根据问题的
语言结构动态生成的.首先,使用斯坦福大学提出的自然语言解析器 [66] 解析每个问题,获得通用的依赖关系表
示 [67] ;然后,以此分析出回答问题所需要的基础组成单元以及组成单元之间的联系,组成最终的布局网络.如图 8
中所示,神经模块网络回答“圆圈上面有红色的形状吗”时的推理过程.值得一提的是:网络中还使用长短期记忆
网络(LSTM)作为问题编码器,目的是学习常识性知识和补充简化后丢失的信息.Andreas 等人 [68] 对神经模块网
络的各个模块进行改进,在网络布局模块中加入了增强学习,从一组自动生成的布局候选中动态选择给定问题
的最佳布局,动态地对每个实例的网络结构进行学习.Hu 等人 [69] 认为:目前的神经模块网络太过依赖语言解析
器,并且仅限于解析器提供的模块配置,而不是从数据中学习.于是,Hu 等人提出了端到端模块网络,通过直接预
测实例特定的网络布局来学习推理,而无需借助解析器.
Fig.8 Overview of neural module networks [65]
图 8 神经模块网络概述 [65]
动态内存网络最先由 Kumar 等人 [70] 提出,其是具有特定模块化结构的神经网络.Xiong 等人 [71] 将其应用至
视觉问答领域,利用卷积神经网络提取视觉特征输入循环神经网络,将特征图使用激活函数的线性层映射到和
问题的文本特征同一空间的向量,最后使用双向门循环单元获取特征.动态内存网络通过对数据多个部分之间
的多次交互进行建模来解决需要复杂逻辑推理的任务.Noh 等人 [72] 提出的 RAU 模型也可以隐式执行合成推理,
而无需依赖外部语言解析器.模型使用了多个可以解决视觉问答子任务的独立应答单元,这些应答单元以循环
方式排列.
组合式模型目前主要应用于合成图像数据集中,在自然图像数据集中效果比较差,依赖于语言解析器的模
型主要在进行语言逻辑的推理,并没将推理过程作用于图像中.但组合式模型潜力巨大,提供了解决视觉问答任
务的可解释方式,这是符合人类回答问题的过程.目前的瓶颈可能在于提取的特征不足以开展推理过程,随着深
度学习的不断进步,组合式方法可能会有着巨大的进步.
1.4 基于外部知识的方法
视觉问答任务是人工智能中一个非常具有挑战性的任务,回答问题需要理解图像的视觉内容,理解视觉内
容的前提是知道一定的非视觉信息,如回答“图中有多少只哺乳动物?”,首先需要知道图中的动物是否属于哺乳
动物,这种问题需要借助外部知识才能够回答.部分研究将视觉问答任务与知识库相结合,部分数据集的提出是
专门针对这类方法的研究,如 KB-VQA 数据集 [73] 以及 FVQA 数据集 [74] .由于训练集中的知识是一定的,并不能
完全覆盖回答问题的全部知识,所以若想回答有难度的问题,从外部获取知识是必要的.
Wang 等人 [73] 提出了名为“Ahab”的视觉问答框架:首先,通过卷积神经网络从图像中提取视觉概念;然后,在
DBpedia 知识库 [75] 内寻找相近的节点,总结查询的结果得出最终答案.但是“Ahab”框架需要通过设计的模板解
析问题,这大大限制了能够回答问题的种类.为了解决需要模板解析问题的限制,Wang 等人 [74] 在此基础上通过
长短期记忆网络和数据驱动的方法学习图像和问题到查询的映射.Wu 等人 [76] 通过卷积神经网络提取语义属
性,从 DBpedia 知识库 [75] 中检索与之相关的外部知识,DBpedia 知识库中包含的简单描述通过 Doc2Vec 嵌入到
固定大小的向量中.嵌入的向量被输入到长短期记忆网络模型中,然后与问题相结合,并最终生成答案.Wu 等