Page 348 - 《软件学报》2025年第12期
P. 348

余建兴 等: 基于常识推理问答的多模态题文不符检测                                                       5729



                 的实体通常不同, 我们将        Q i  中的实体替换为其他提问      Q j  中的实体, 从而产生多个负样例. 基于这些正、负样例,
                 我们使用交叉熵损失来训练校验器. 为弥补训练样本数量不足的缺陷, 我们在第                         2  阶段使用来自生成器的增强训
                 练样本逐渐更新校验器参数. 具体地, 我们使用带有各种示例的思维链提示生成多个候选样本, 并将由校验器评判
                 后得分最高的样本视为正样例. 针对这些伪正样例, 继续通过前述的实体替换方法来构造负样例. 这些增强数据可
                 以更好地促进校验器的训练. 同时, 这些经过验证的反馈可以帮助生成器过滤低质量噪音, 输出优质的增强数据.
                 经过多次迭代, 我们可以得出最优的校验器和生成器.
                  2.3   一致性验证及预测
                                                                                                     C
                                                                 C                                  A  可
                    针对生成的提问       Q i , 往往可以从推文   x 中找到一个答案     A . 然而, 题文不符推文包含欺骗性内容, 致使
                                                                 i                                   i
                                                           C
                 能并非   Q i  的正确答案. 因此, 我们可以通过验证答案         A  的真实性来反推出题文不符. 为了验证, 我们引入具备较
                                                           i
                 强常识推理能力的问答模型          VE [65] . 针对提问  Q i , VE  能够从互联网等开放域知识源中检索相关的常识知识, 并通
                                 O                 O                  A  不匹配的时候, 推文很可能存在题文不符
                                                                       C
                 过推理来获得答案       A . 当基于全局常识的     A  和基于文本局部语境的
                                 i                 i                   i
                 内容. 这可以作为一种有效的特征, 通过联合其他经典的题文不符特征来提升检测器的鲁棒性, 作为更客观
                 预测.
                  2.3.1    答案比较
                                  O
                             C  A , 一种简单的方法是利用          指标来评测单词的匹配度. 但这种基于字面匹配的方法不适用
                    为了比较    A  和                      F1
                             i    i
                 于无重叠词语的两个近义答案计算. 为了解决这个问题, 我们微调一个                       Transformer 模型来进行匹对. 首先使用
                                                                           (
                                                                                )
                                                                                         O
                                                                                      C
                                                                               O
                                                                             C
                 B E R T  模  型  将  推  文  上  下  文  线  索     S P 、  生  成  的  提  问     {Q 1 ,...,Q n }   和  答  案  对  { A ,A ,...,(A ,A )}   分  别  编  码  为  e P 、


                                                                             1  1     n  n
                  q    q    a    a
                 {z ,...,z n}  和  {z ,...,z }. 随后, 线索、提问和答案对由特殊标记<CLS> 间隔, 而在答案对内部还插入了分隔标记
                  1         1    n
                 <SEP>, 以此作为预训练模型       BERT  的输入. 如公式   (4) 所示, 我们根据推文内容与提问的相似度评估相应答案的
                                  W 2  是可学习权重集、    ⟨·⟩ 为余弦相似度,   α i  是注意力机制. 由于不同提问具有不同的难度和
                 重要程度, 其中    W 1  和
                 推理方向, 它们对题文不符判别的重要性也存在差异. 为此, 我们使用该机制针对每个提问学习其重要性权重.

                                                      (  q )  ⟨      q ⟩
                                                  att e P ,z = W 1 e P ,W 2 z
                                                  
                                                        i           i
                                                  
                                                            (  (
                                                                  q ))
                                                   α i = Softmax att e P ,z                          (4)
                                                                  i
                                                  
                                                     ∑  m
                                                  
                                                           a
                                                   z =   α i z
                                                         i=1  i
                  2.3.2    多特征联合预测
                    为了提高题文不符判别的鲁棒性和准确性, 我们从推文中提取                     5  类经典的多模态特征, 包括视觉特征、文本
                 特征、跨模态特征、语言特征和作者画像特征, 连同上述的答案一致性特征共                          6  类特征来构建检测器. 这些特征
                 具有良好的判别性. 通过拼接这            6  类特征, 我们得到向量       o, 并将其输入到多层感知机分类器来预测结果
                                     W 3  是可学习的参数矩阵、      b 为偏置项. 如果   判别为题文不符, 或所生成提问已达到预
                                                                       ˆ y
                 ˆ y = Softmax(W 3 o+b), 其中
                                d, 我们终止提问生成过程, 并认为目标推文合规. 否则, 我们继续生成更高阶提问来验证推文
                 设的最大推理难度
                 中的疑点. 模型通过二元交叉熵损失进行训练, 即              L = BCE(y, ˆy). 下文详细介绍提取  5  类多模态特征的方式.
                    (1) 视觉特征. 推文一般包含封面图和正文插图两类视觉内容, 我们利用                    Swin Transformer [66] 模型提取对应的
                 特征. 该模型以预训练      Transformer 作为骨架, 基于滑动窗口自注意力机制提取图像的层次特征. 此外, 考虑到推文
                 图像中常包含与题文不符的人物, 我们分别使用               DNN  和  RetinaNet 网络检测图像中的人物和面部特征         [67] .
                    (2) 文本特征. 我们首先对推文中的标题和正文分词, 并通过预训练模型                    BERTbase [68] 给每个词嵌入编码. 考虑
                 到封面图中也可能包含诱骗性文字, 我们还使用光学识别模型                    OCR  提取、编码封面图中的文字.
                    (3) 跨模态特征. 题文不符推文往往在内容上存在不一致, 例如封面图与正文无关联. 因此推文各部分内容的
                 一致性是题文不符判别的重要依据之一. 考虑到各部分数据模态不同, 所获取的多模态特征处于不同的语义空间,
                 无法直接进行匹对. 为此, 我们引入          ViLBERT  模型  [69] , 通过多头注意力网络捕捉视觉特征       V  和文本特征    T  的关
                                                                                                    b
                                                                                        s
                                                                                           )
                                                                                      (
                                                                               F = CT( T W ,(V W )), 以及视
                                                                                                v
                                                                                              s
                                                                                          t
                                                                                vt
                                                                                        b
                 联. 它根据所输入的数据类型区分不同输入特征, 最终输出文本感知的视觉特征
                                 tv      s  v  (  b  t  )  W 、  v                            vt   tv  能够从
                                                         t
                 觉感知的文本特征       F = CT((V W ), T W ), 其中    W  为权重矩阵. 依赖于多头注意力机制,           F   和  F
   343   344   345   346   347   348   349   350   351   352   353