Page 270 - 《软件学报》2025年第4期
P. 270

1676                                                       软件学报  2025  年第  36  卷第  4  期


                 因, Xu  等人  [28] 提出一个匹配对齐框架   MAF (matching and alignment framework). 该框架包含一个对齐模块  (cross-
                 modal alignment) 和一个匹配模块  (cross-modal matching). 通过对齐模块使得两种模态的特征表示尽可能一致, 通
                 过匹配模块计算图文相似度来决定融合时图片保留的比例. 这两个子模块在很大程度上缓解了给定图文对不相关
                 的问题, 同时也增加了模型的鲁棒性; 与文献             [4,26] 中的方法类似, 然后通过门控机制        (gate mechanism) 来动态融
                 合处理后的两种模态的特征表示, 最后将融合后的多模态特征输入                      CRF  层得到实体分类.


                   General words                                                            Muti-modal NER
                 (miscellaneous, person,  Visual representation  Entity boundary detection
                 location, organization)                                                     Linear & CRF
                                                             Linear & CRF
                     Visual
                                                             Add & Norm                      Add & Norm
                    grounding
                     toolkit
                                        ResNet                 FFN      0  1  2  3  4  5  0     FFN
                    Noun phrases                                        -1  0  1  2  3  4 -1
                   (Julia Child, Taj                         Add & Norm  -2  1  0  3  4  5 -2  Add & Norm
                   Mahal, sunset)      1 v  2 v  3 v  4 v  Dimension    -3  1  2  0  4  0 -3
                                                  alignment
                                                                        -4 1 -3  3  0 -6 -4
                                                             Self-attention                  Self-attention
                     Stanford                                           -5 -4 -3 -2 -1 0 -5  d  (tt)
                      parser      1 x  2 x  3 x  4 x  5 x  6 x  7 x  8 x
                                                                        0  1  2  3  6  5  0  d  (ht)
                                                                                        (th)
                                                                                       d
                                                                                      (hh)
                                                                                     d
                                          BERT encoder
                                                                        Relative position
                                                                          metrics
                           E [CLS  E  E  E  E    E  E    E at  E  E [SEP
                             ]   J ulia  C hild  at  the  Tai  Mahal  sunset  ]
                                             +
                                                                         c  c  c  c  c  c  c  c  c  c  c  c
                                                                         x 1  x 2  x 3  x 4  x 5  x 6 x 7 x 8 v 1  v 2 v 3 v 4
                            E  A  E A  E A  E A  E  A  E A  E A  E A  E A  E  A
                                             +                           1  2  3  4  5  6  7  8  1  8  5  1
                            E 0  E 1  E  2  E  3  E  4  E 5  E  6  E 7  E 8  E 9
                                                                         1  2  3  4  5  6  7  8  8  8  6  2
                           [  CLS ]  J ulia  C hild  at  the  Tai  Mahal  at  sunset  [ SEP  ]
                                                                         Cell
                                          Word representation                   Flat lattice structure
                                                    图 7 FMIT  框架图  [48]
                   线提升明显. Sun
                    ● 基于多模态预训练模型的方法
                    随着多模态预训练模型         (如  CLIP (contrastive language-image pre-training) 和  VL-BERT (vision-and-language
                 BERT)) 的快速发展, 基于多模态预训练模型的这种端到端                (end to end) 的方法越来越受到研究者们的欢迎. 近年
                 来, 不断有学者将该类方法应用到          MNER  任务上   [29,32,41] . 虽然基于  Transformer 的方法  [26] 已取得较好的性能, 但是
                 针对其错误结果分析显示: 22%         的实体可以用先进的       MNER  模型正确识别, 但是在最先进的文本            NER  模型上却
                 不能被正确识别; 此外, 12%      的实体可以在仅文本的        NER  模型上正确识别, 但是却不能在最先进的            MNER  模型上
                 识别. 上述结论表明: MNER      模型并不总是优于仅文本         NER  模型. 受此启发, Xu   等人  [41] 提出首先基于强化学习框
                 架训练一个分类器, 该分类器由          CLIP [52] 和  MLP (multilayer perceptron) 两部分组成, 通过分类器将图文相关的数据
                 划分到多模态数据集, 不相关的图文数据中只保留文本态, 并将其划分到单模态数据集, 然后再将这些数据分别输
                 入  MNER  模型和对应的文本态      NER  模型中, 最后组合两部分结果作为最终结果. 实验结果表明: 该模型性能比基
                              等人  [32] 首先使用基于半监督的教师-学生方法学习图文对之间的关系, 以训练一个可以判断图文
                 关系是否相关的二分类器, 分类器得到的结果作为门控单元的一个输入来决定提取的图片特征是否传入下一步的
                 视觉-语言上下文模块, 然后通过训练两个子任务               (图文对关系预测和上下文单词预测) 得到一个基于多模态预训
                 练模型的方法     RIVA (relation inference and visual attention), 最终在测试集上, 将  RIVA  的输出输入到  Bi-LSTM-
                 CRF  框架  [19] 得到实体分类. Sun 等人  [29] 提出一个基于图文关系传播的     BERT  变体模型  RpBERT (relation-propagation-
                 based BERT), 首先通过视觉语言预训练模型         VL-BERT  [53] 得到两种多模态的特征表示, 紧接着将其输入到一个全
                 连接层   (作为一个二分类器) 来判断图文对的关系是否相关, 然后再通过关系传播机制得到的掩码矩阵来控制图
   265   266   267   268   269   270   271   272   273   274   275