Page 256 - 《软件学报》2025年第12期
P. 256

童翰文 等: 带有差异化机制的多视角归纳式知识图谱补全框架                                                   5637



                                                    表 1 数据集统计信息

                                            训练集                 验证集                      测试集
                  FB15k-237类型   关系数
                                        实体数     三元组数        实体数       三元组数          实体数         三元组数
                    半归纳式         237    11 633  215 082   11633 + 1454  42 164  11633 + 1454 + 1454  52 870
                    全归纳式         219    4 707    27 203    0 + 3051    1 416        0 + 3051      1 424
                     直推式         237    14 541  272 115    14541 + 0   17 535      14541 + 0     20 466
                 注: “+”指在验证集或测试集中添加的新实体

                  5.1.2    基线模型
                    本文在不同的任务设定下比较了本文方法和一些强力的基线模型.
                                                        [8]
                    ● 对于半归纳式设定, 基线模型包括了           StATIK  (当前最先进的方法, 是一个同时利用知识图谱文本和结构信
                                  [5]
                                         [4]
                                                            [4]
                 息的混合模型)、StAR 、BLP . 本文同样引入了            BLP 中提到的其他基线模型, 包括了           DKRL [19] 和一个词袋模
                 型  (bag-of-word, BOW). 该词袋模型通过对实体的所有单词表示做平均来得到实体的表示. 以上两个模型所用到
                                                                [32]
                 的单词表示可以通过不同的方式来获取, 这里使用到了                 GloVe  (GloVe-BOW、GloVe-DKRL) 和  BERT (BE-BOW、
                 BE-DKRL).
                                                        [7]
                    ● 对于全归纳式设定, 基线模型包括了           Bi-Link  (当前最先进的基于文本的方法, 是一个带有概率性的、基于
                 规则的提示的对比学习框架) 以及它的基线模型, 包括了                 DKRL [19] 、KG-BERT [20] 和  SimKGC .
                                                                                        [6]
                    ● 对于直推式设定, 除了以上提到的当前最先进的基于文本的归纳式方法, 本文还引入了基于嵌入的方法作
                 为基线模型, 包括了      TransE 、DistMult [16] 、RotatE [11] 和  TuckER  [33] . 本文还引入了强有力的基于图神经网络的基
                                      [3]
                 线模型, 包括了    R-GCN [17] 和  CompGCN [18] .
                    此外, 本文还使用     ChatGPT (GPT-3.5-Turbo) 作为一个强力的基线模型, 它可用于所有的设定下. 本文按照现
                 有工作  [34] 的设定以及提示来诱导      ChatGPT  进行链接预测任务.
                  5.1.3    实现细节
                    本文在半归纳式和直推式设定下使用              bert-mini [35,36]  (https://huggingface.co/prajjwal1/bert-mini) 作为预训练语
                 言模型, 而在全归纳式设定下使用           bert-small [35,36]  (https://huggingface.co/prajjwal1/bert-small). 它们相比于先前工
                 作  [6−8] 所使用的  BERT  拥有更小的参数量, 而使用更大的预训练语言模型也许可以进一步提升性能. 这些模型的权
                 重都是通过    Transformers [37] 库加载的. 由于算力的限制, 本文对于半归纳式、全归纳式和直推式设定, 分别将输入
                 文本截断到最大长度为        48、56  和  36  个  token. 本文将公式  (6) 和公式  (12) 中注意力头的维度  d k  和  BERT  保持一
                 致. 对于结构编码模块, R-GCN      的层数设置为     2. 对于路径编码模块, 设置路径长度          K  为  5, 半归纳式和直推式设定
                 下采样的路径个数       2M  为  2×20, 全归纳式设定下采样的路径个数         2M  为  2×80. 需要注意的是, 考虑到     M  增大会
                                                                 ′                             2M  条路径.
                 带来大量的空间开销, 本文在训练时为每个批次随机采样                   2M = 2×2 条路径而在推断时使用全部的
                 除此之外, 由于    BERT  是经过了预训练的而其他模块都是随机初始化的, 本文使用差分学习率进行模型训练, 并将
                 其他模块和    BERT  之间的学习率比例标记为         λ. 本文对于半归纳式、全归纳式、直推式设定, 将学习率                 α 分别设
                 置为  5E–5、1E–5、5E–5, 将学习率比例     λ 分别设置为    10、100、20, 将批次大小分别设置为         64、256、256, 将训
                 练轮数分别设置为       30、200、120. 而且, 本文将训练时负样本数量也分别设置为              4 096、1 024、1 024. 本文还将温
                        τ 设置为               γ 设置为  9.0. 最后, 本文使用   AdamW [38] 优化器, 它的权重衰减为     0.01, 以及使
                 度超参数           0.1, 间隔超参数
                 用线性学习率调度策略, 预热         1%  的训练步数, 然后进行线性衰减.
                  5.1.4    评估方式和指标
                                                                                    (h,r,t), 尾实体预测指给定
                    本文遵循先前的工作, 利用实体排序任务来评估本文的方法. 对于每个测试三元组
                 头实体   h 和关系   r, 对所有的候选实体进行排序, 从而预测尾实体            t, 即预测  (h,r,?). 头实体预测也是类似的, 即预测
                                         (?,r,t), 本文将知识图谱中的所有实体都视作候选实体. 本文使用                4  个自动化的评
                 (?,r,t). 对于每个查询  (h,r,?) 或
                 估指标: MRR (mean reciprocal rank) 和  Hits@  k (k ∈ {1,3,10}). MRR  计算所有测试三元组排序倒数的平均值. Hits@  k
                 指正确的实体被排在前        k 个位置的比例. 本文在过滤设定         [3] 下计算所有自动化指标, 指在预测一个三元组中, 对候
   251   252   253   254   255   256   257   258   259   260   261