Page 342 - 《软件学报》2025年第12期
P. 342

余建兴 等: 基于常识推理问答的多模态题文不符检测                                                       5723


                    本文的主要贡献包括以下          3  点.
                    (1) 揭示了题文不符检测领域中存在的复杂伪装问题, 指出了复杂推导和可解释性等难点.
                    (2) 以一种问答的方式来检测题文不符, 从易到难地生成一系列高质量提问, 通过质疑推文细节来发现潜在矛
                 盾. 生成的提问难度可控, 能够灵活地验证各种多跳间接关系的真实性和内外部知识的一致性.
                    (3) 进行了广泛的实验, 充分地检验所提出方法在题文不符检测领域中的性能. 结果表明, 本文方法能够有效
                 检测多模态题文不符, 并且对结果提供了可解释的推理过程, 还对伪装的复杂推文具有很好的判别能力.

                  1   相关工作

                    在社交网络中, 推文的点击率、阅读量越高通常意味着广告等收益越大. 各大媒体和推文的创作者为了追求
                 高收益往往会想方设法使推文更具吸引力. 一些不正当的创作者会使用色情、夸张、恐怖、冒犯性和欺骗性等内
                 容诱惑读者点击. 这导致大量题文不符的低质推文在网络上迅速传播, 严重损害了用户体验. 传统的人工审核方法
                 无力应对社交平台每日产生的海量推文. 因此, 依靠机器自动检测是目前较为可行的解决方案, 这已成为热门的研
                 究话题. 一些学者尝试通过分析社交行为特点来检测, 这种行为包括创作者的发帖历史                            [10] , 以及由读者产生的分
                 享、评论、点击量和阅读时间等推文状态数据                 [11] . 然而, 这些方法存在冷启动问题, 即无法对没有社交历史行为
                 数据的新推文做判断. 另一个可行的方向是分析推文的内容                   [12] , 归纳出题文不符常见的用词、情感、标点符号等
                 语言特征来预测      [13] . 早期工作是通过人工构建的规则作为特征, 存在对专家知识依赖度高、扩展难等缺陷. 为解
                 决这些不足, 学者们逐步转向数据驱动的神经网络方法. 这种方法无须人工定义特征, 而是通过编码-解码网络直
                 接学习推文内容和题文不符标签的映射关系               [14] . 具体而言, 题文不符推文往往具有诱人的标题和与之无关且带有
                 欺骗内容的正文. 为了发现这种不一致性, 一些研究提出使用                  n-gram  字面匹配或孪生网络     [15] 来衡量标题与正文的
                 相关度. 然而, 标题是短文本而正文却是长文本, 两者信息量并不对等. 简单的字面匹配很容易由于长文本中的无
                 关噪音而错误计算相关度. 为了处理这个问题, Yi 等人              [16] 将正文归纳为短文本摘要, 然后再与标题匹配. 但是, 该
                 方法的性能受限于摘要模型, 存在误差积累问题. 此外, 不一致不仅存在于单一的文本模态之内, 也存在于不同模
                 态之间   [17] , 例如配图和文并无关联. 一些研究者提出基于数据融合方法, 通过提取和拼接多种模态的特征来预
                 测  [18] . 然而, 这些方法大多是黑箱模型, 并不能向用户展示决策的过程和依据.
                    不同于以往研究, 本文把推文检测转换成一个问答任务, 以一种可解释的方式来发现不一致. 即通过发问来质
                 疑推文中潜在的线索, 并通过文中和文外等多维度的知识来交叉验证. 这种基于问答的验证技术具有良好的可解
                 释性  [19] , 可用于核查事实  [20] 、检测虚假  [21] 、错误纠正  [22] 等. 然而, 提出一个高质量且一针见血的问题并不容易          [23] .
                 早期方法是通过人工制定的规则            [24] 或模板  [25] 来生成提问, 但这依赖于专家经验, 成本高且不容易扩展. 后续的研
                 究工作大多转向数据驱动的神经网络模型               [26] , 它们往往利用编解码器框架及其变体学习映射关系, 直接把输入文
                 本转成提问    [27] , 如  Seq2Seq [28] 、预训练模型  [29] 、双学习模型  [30] 、图的模型  [31] 以及对抗网络模型  [32] 等. 由于缺乏对
                 解答过程的建模, 生成的结果往往是浅层提问, 即通过字面匹配而直接获得答案                         [33] . 这种简单提问难以发现涉及
                 多个事物多步关系的复杂题文不符. 一些工作提出引入解答的推理链来辅助生成复杂的多跳提问                                [34] , 但这种提问
                 通常仅能验证推文内部的实体和关系, 难以应对涉及推文以外更宽泛的常识矛盾场景                            [35] . 为此, Jia 等人  [36] 提出从
                 知识图谱   [37] 中检索相关的三元组作为外部知识编码进模型, 尝试提升常识感知能力, 但这种大杂烩式的编码方式
                 较为粗糙, 生成的结果多是单跳提问, 并不具备常识可推理能力                   [38] . 为解决这一不足, Yu  等人  [39] 通过对抗训练  [40]
                 来约束模型生成常识推理提问, 但生成过程缺少对提问复杂度的控制. 针对可控性问题, 传统工作主要根据提问是
                 否可回答可解来定义难度. 这个定义过于粗粒, 难以精细地刻画难度的等级. Gao                      等人  [41] 使用潜在变量来控制复杂
                 度, 但这些变量是隐含的, 解释性差. Kumar 等人          [42] 根据提问中实体的流行度以及其在知识图谱中对应实体的链
                 接置信度来衡量提问的难度. 这些方法大多数从问的角度着手, 而它的复杂度却主要体现在如何答, 即一个含有多
                 个条件很冗长的提问也有可能是简单的, 因为它的答案可以通过匹配直接获得                          [43] . 因此, 本文提出从答的角度来
                 实现刻画和控制提问的难度, 即获取提问解答过程涉及的文中和文外常识的多个实体和关系, 并将其作为先验知
                 识引导模型生成, 以迭代的方式由易到难地生成一系列可推理的常识提问, 并灵活控制难度.
   337   338   339   340   341   342   343   344   345   346   347