Page 273 - 《软件学报》2025年第4期
P. 273

王永胜 等: 多模态信息抽取研究综述                                                              1679


                               表 6    多模态命名实体识别模型在数据集          Twitter2017  上的性能比较  (%) (续)

                                                                                      所有类型 (Overall)
                           类别                    方法                  模型
                                                                                   Pre     Rec     F1
                                                                          [8]
                                                                  MRC-MNER        88.78   85.00   86.85
                                          基于注意力机制的前融合
                     基于跨度分类的方法                                   CAT-MNER  [39]   87.04   84.97   85.99
                                            基于POE的后融合               文献[54]        85.77   86.97   86.37
                                                                  VanillaGPT [43]  52.19  75.03   61.56
                                                ChatGPT         PromptGPT (N=1) [43]  56.99  74.77  64.68
                   基于大模型直接生成的方法                                             [43]
                                                               PromptGPT (N=10)   72.90   77.65   75.20
                                                                        [57]
                                                GPT-4               GPT4           -       -      66.61


                 4   多模态实体关系抽取

                 系的冗余实体等缺点; 基于特征工程的联合抽取方法
                 4.1   数据集
                    近年来, 缺乏包含实体关系的大规模多模态数据集成为                  MERE  任务发展的首要障碍. 因此, 2021      年, Zheng  等
                 人  [16] 提出了多模态关系抽取数据集      MNRE. 该数据集主要来源于: Twitter2015、Twitter2017   以及再次在     Twitter 网
                 站上爬取的数据. 同年, Zheng     等人  [31] 也基于  Twitter2015、Twitter2017  以及再次在  Twitter 网站上爬取的数据提出
                 了数据集   MNRE_MM (文献    [31] 中的数据集与文献     [16] 中的数据集同名, 为避免重名引起歧义, 本文中将文献             [31]
                 中的数据集命名为      MNRE_MM). 与数据集     MNRE  不同的是: 数据集    MNRE_MM   是由标注人员按照不同主题 (如音
                 乐、体育和社会事件) 进行筛选后得到, 而           MNRE  数据集没有按主题筛选. 两个数据集中的文本都表现为短文本的形
                 式, 与文本相关的图片可以为短文本提供信息补充, 进而提高实体关系识别的精度. 两个数据集的统计信息见表                               7.


                                        表 7 MNRE   [16] 和  MNRE_MM  [31] 数据集的统计信息

                                                         创建数据集            SOTA性能
                   数据集     Img   Sent   Ent   Rel   Inst         数据集类型                   数据集链接
                                                          的年份             (F1值) (%)
                   MNRE   10 089  14 796  20 178  31  10 089  2021  推文     68.60 [47]  https://github.com/thecharm/MN
                                                                                      RE/tree/main/Version-1
                                                                 音乐、体育         [58]  https://drive.google.com/file/d/1g
                 MNRE_MM   9 201  9 201  30 970  23  15 485  2021          84.86  D9ipQgDEDRxaVxkKr8T0gFFQ
                                                                 等主题推文
                                                                                         gKyPpa7/view
                 注: Img表示图片的数量, Sent表示句子的数量, Ent表示实体的数量, Rel表示实体关系的数量, Inst表示实例的数量

                 4.2   方法总结
                    在之前的研究工作中, 尽管实体关系抽取已经取得了较大的成功                      [59−61] , 但这些模型绝大多数是在纯文本语料
                 上训练, 其在包含图文的多模态语料上的性能表现缺乏一般性, 模型不能学习图片提供的信息. 与纯文本实体关系
                 抽取方法类似, 由于基于流水线方法           (Pipeline) 存在错误累计、缺少子任务间的信息交互以及产生无确定实体关
                                                          (Joint) 又依赖大量人工提取的特征规则, 存在成本高效率低
                 等缺点. 因此, 基于深度学习的联合抽取方法成为多模态实体关系抽取任务的主流方法.
                    Zhao  等人  [59] 认为两个实体的类型可能对实体关系的分类有重要影响, 例如: 如果已经知道两个实体的标签是
                 “位置 (location)”, 那么很容易判定这两个实体的关系为“位于           (located in)”. 因此, 将命名实体识别得到的实体标签
                 看成区别于文本的另一种模态, 这样就将纯文本的单模态任务变成为一个跨模态任务, 并提出联合抽取命名实体
                 和实体关系的方法       CMAN (cross-modal attention network). 通过在  ADE  和  CoNLL04  这两个数据集上的实验显示:
                 使用该方法, 其实体关系抽取的性能           (  F1 值) 比基线模型分别提高了      1.9%  和  1.5%.
                    上述工作本质上还是单模态          (纯文本) 关系抽取, 并未引入文本态之外的其他模态作为输入. 随后, Zheng 等人                 [16]
   268   269   270   271   272   273   274   275   276   277   278