Page 343 - 《软件学报》2025年第12期
P. 343
5724 软件学报 2025 年第 36 卷第 12 期
2 方法和框架
y y = 1 表示题文不符,
本文旨在学习一个模型 F(y | x) 来检测输入推文 x 的质量 ( y = 0 则为正常), 其中 x 包括
文本标题、封面图及其链接的多模态正文. x 的内容可能存在欺骗、矛盾和不一致, 例如含有诱人却与推文无关
的封面图, 或者正文含有虚假内容. 此外, 恶意创作者会使用各种窍门和言辞将题文不符的推文加以伪装来规避检
测. 检测这些推文并不容易, 需要对推文多模态内容的细节进行深入分析, 甚至还需要引入外部常识进行多步骤推
理. 考虑到质疑是人们验证细节真实性的有效方式, 我们引入了问答技术, 把一个检测任务转换成问答任务来解
决. 问答包括提问 (question generation, QG) 和作答 (question answering, QA) 两个技术. 从简单到复杂提出一系列
C
C
C
问题 {Q 1 ,...,Q n } 来质疑 x 的细节 . 针对这些提问, 我们可以从 x 中找到相应的答案 {A ,...,A }. 考虑到这些答案
1 n
x 以外的知识源中检索相关证据进行交叉验证, 由此推导出另一组
不一定准确, 我们可以借助开放域问答模型从
O O ( C O ) 不同时, 推文很可能存在虚假内容. 这些线索可以用作判别特征来提升检
答案 {A ,...,A }. 当这两类答案 A ,A
1 n i i
测器 F(·) 的判别能力. 此外, 这种方式可以将复杂的检测任务分解为多个小的质疑-验证步骤, 还容易解释导致题
文不符的步骤和矛盾点. 如图 2 所示, 本方法由 3 个模块组成: (1) 检索模块, 用于提取与推文各个模态内容相关的
线索; (2) 提问生成模块, 由易到难地生成常识推理提问来质疑每条线索; (3) 回答模块, 对提问逐一验证以发现潜
在的不一致特征, 并联合其他多模态的题文不符判别特征来预测结果. 下面分段阐述模型的具体构造.
步骤1: 推文内容细节提取 步骤2: 基于线索的提问生成 步骤3: 一致性检验及预测
输入帖子 k
封面图 标题以及内容 深度问题组合模块 答案验证模块 答案验证模块
太卷了! 15岁孩童惊奇发现! 木星上 (闭域 QA) (开放域 QA) 外部知识
确认存在高级文明物种!!!
震惊! 这可能是迄今为止证明外星人存在 实体提取 提示池 A 2 i A 3 i i=1,..., k
的最有力证据! 而这一切竟然归功于一个 一致性特征
年仅15岁的小男孩 Tom Wagg ······ 他注 封面图 标题 内容 用户
意到一个不明飞行物经过木星前面······
反向图像搜索 实体相关内容检索 实体
检索到的 (e h , ··· , e h ) n 视觉特征 文本和语法特征 统计特征
1
文本 子问题池 采样 提取器 提取器 提取器
多模态编码器
概念关系 不同的 多模态特征融合模块
子问题
检索信息抽取 ···
检索到的图片 问题模板
检索增强提示 子问题生成 [名词] 在哪里? 多层感知机分类器
输入 [名词] 是什么?
输出 预训练大语言模型 <e i , r i , e i >i=1,..., n [名词] 是 [名词] 还是 题文不符/ 非题文不符
h
t
搜索引擎 常识三元组 [名词]? ···
图 2 模型总体框架图
2.1 推文内容细节提取
推文所涉及的虚假和不一致往往体现在细节中, 如各种实体和关系. 为了能够更全面地验证这些细节, 我们提
s
,
,
r
(o,r, s) ∈ S o 和 分别表示头实体和尾实体, 是关系, S = S P ∪S C S P 表
取推文之中和之外两个维度的相关细节
示推文之内的细节, S C 是没显式出现在推文中却很重要的外部常识.
2.1.1 推文内多模态线索检索
推文往往包含多个模态的内容, 而模态之间存在异构鸿沟, 即不同模态实体和关系之间难以直接进行关联和
推理. 传统的方法主要通过分析文本内容来检测, 难以发现复杂的涉及多个模态的不一致. 为了解决这个问题, 我
们把各个模态的内容转换为文本描述, 便于从中抽取出实体和关系等细节. 由于文本具有表达丰富、语义明确的
特点, 它能够描述视觉等模态的内容, 进而灵活地将各种模态的信息联系在一起. 这就可以将复杂的多模态任务转
换为单模态数据, 使得跨模态的关联和推理变得更加便捷和高效. 具体来说, 我们首先利用语言-图像预训练模型
ALIP [44] 为推文中的每张图片 v ∈ V 生成对应的描述文本 v cap , 以便于在统一的文本模态中进行质疑和推理. 不同于
普通的文本大模型 LLM, ALIP 是一种多模态大模型. 考虑到图片中嵌入的文字也经常存在题文不符现象, 我们还
使用光学字符识别技术 (optical character recognition, OCR) [45] 提取图中的文本 v ocr . 最终, 将图像描述文本 v cap 、 v ocr

