Page 342 - 《软件学报》2025年第12期

P. 342

余建兴等: 基于常识推理问答的多模态题文不符检测 5723

本文的主要贡献包括以下 3 点.
(1) 揭示了题文不符检测领域中存在的复杂伪装问题, 指出了复杂推导和可解释性等难点.
(2) 以一种问答的方式来检测题文不符, 从易到难地生成一系列高质量提问, 通过质疑推文细节来发现潜在矛
盾. 生成的提问难度可控, 能够灵活地验证各种多跳间接关系的真实性和内外部知识的一致性.
(3) 进行了广泛的实验, 充分地检验所提出方法在题文不符检测领域中的性能. 结果表明, 本文方法能够有效
检测多模态题文不符, 并且对结果提供了可解释的推理过程, 还对伪装的复杂推文具有很好的判别能力.

1 相关工作

在社交网络中, 推文的点击率、阅读量越高通常意味着广告等收益越大. 各大媒体和推文的创作者为了追求
高收益往往会想方设法使推文更具吸引力. 一些不正当的创作者会使用色情、夸张、恐怖、冒犯性和欺骗性等内
容诱惑读者点击. 这导致大量题文不符的低质推文在网络上迅速传播, 严重损害了用户体验. 传统的人工审核方法
无力应对社交平台每日产生的海量推文. 因此, 依靠机器自动检测是目前较为可行的解决方案, 这已成为热门的研
究话题. 一些学者尝试通过分析社交行为特点来检测, 这种行为包括创作者的发帖历史 [10] , 以及由读者产生的分
享、评论、点击量和阅读时间等推文状态数据 [11] . 然而, 这些方法存在冷启动问题, 即无法对没有社交历史行为
数据的新推文做判断. 另一个可行的方向是分析推文的内容 [12] , 归纳出题文不符常见的用词、情感、标点符号等
语言特征来预测 [13] . 早期工作是通过人工构建的规则作为特征, 存在对专家知识依赖度高、扩展难等缺陷. 为解
决这些不足, 学者们逐步转向数据驱动的神经网络方法. 这种方法无须人工定义特征, 而是通过编码-解码网络直
接学习推文内容和题文不符标签的映射关系 [14] . 具体而言, 题文不符推文往往具有诱人的标题和与之无关且带有
欺骗内容的正文. 为了发现这种不一致性, 一些研究提出使用 n-gram 字面匹配或孪生网络 [15] 来衡量标题与正文的
相关度. 然而, 标题是短文本而正文却是长文本, 两者信息量并不对等. 简单的字面匹配很容易由于长文本中的无
关噪音而错误计算相关度. 为了处理这个问题, Yi 等人 [16] 将正文归纳为短文本摘要, 然后再与标题匹配. 但是, 该
方法的性能受限于摘要模型, 存在误差积累问题. 此外, 不一致不仅存在于单一的文本模态之内, 也存在于不同模
态之间 [17] , 例如配图和文并无关联. 一些研究者提出基于数据融合方法, 通过提取和拼接多种模态的特征来预
测 [18] . 然而, 这些方法大多是黑箱模型, 并不能向用户展示决策的过程和依据.
不同于以往研究, 本文把推文检测转换成一个问答任务, 以一种可解释的方式来发现不一致. 即通过发问来质
疑推文中潜在的线索, 并通过文中和文外等多维度的知识来交叉验证. 这种基于问答的验证技术具有良好的可解
释性 [19] , 可用于核查事实 [20] 、检测虚假 [21] 、错误纠正 [22] 等. 然而, 提出一个高质量且一针见血的问题并不容易 [23] .
早期方法是通过人工制定的规则 [24] 或模板 [25] 来生成提问, 但这依赖于专家经验, 成本高且不容易扩展. 后续的研
究工作大多转向数据驱动的神经网络模型 [26] , 它们往往利用编解码器框架及其变体学习映射关系, 直接把输入文
本转成提问 [27] , 如 Seq2Seq [28] 、预训练模型 [29] 、双学习模型 [30] 、图的模型 [31] 以及对抗网络模型 [32] 等. 由于缺乏对
解答过程的建模, 生成的结果往往是浅层提问, 即通过字面匹配而直接获得答案 [33] . 这种简单提问难以发现涉及
多个事物多步关系的复杂题文不符. 一些工作提出引入解答的推理链来辅助生成复杂的多跳提问 [34] , 但这种提问
通常仅能验证推文内部的实体和关系, 难以应对涉及推文以外更宽泛的常识矛盾场景 [35] . 为此, Jia 等人 [36] 提出从
知识图谱 [37] 中检索相关的三元组作为外部知识编码进模型, 尝试提升常识感知能力, 但这种大杂烩式的编码方式
较为粗糙, 生成的结果多是单跳提问, 并不具备常识可推理能力 [38] . 为解决这一不足, Yu 等人 [39] 通过对抗训练 [40]
来约束模型生成常识推理提问, 但生成过程缺少对提问复杂度的控制. 针对可控性问题, 传统工作主要根据提问是
否可回答可解来定义难度. 这个定义过于粗粒, 难以精细地刻画难度的等级. Gao 等人 [41] 使用潜在变量来控制复杂
度, 但这些变量是隐含的, 解释性差. Kumar 等人 [42] 根据提问中实体的流行度以及其在知识图谱中对应实体的链
接置信度来衡量提问的难度. 这些方法大多数从问的角度着手, 而它的复杂度却主要体现在如何答, 即一个含有多
个条件很冗长的提问也有可能是简单的, 因为它的答案可以通过匹配直接获得 [43] . 因此, 本文提出从答的角度来
实现刻画和控制提问的难度, 即获取提问解答过程涉及的文中和文外常识的多个实体和关系, 并将其作为先验知
识引导模型生成, 以迭代的方式由易到难地生成一系列可推理的常识提问, 并灵活控制难度.

337 338 339 340 341 342 343 344 345 346 347