Page 278 - 《软件学报》2025年第12期
P. 278
杨建喜 等: 多语义视图驱动的 OWL 知识图谱表示学习方法 5659
表示完整数据集, D pos 表示正例三元组集合, 若该三元组为类实例、类层级或类属性关系, 则利用公式 (47) 生成负
例, 否则利用公式 (48) 生成负例, 其中 D neg 表示负例三元组集合.
′ ′ ′
D neg = {(s, p,o ) | o ∈ C,(s, p,o ) < D} (47)
′ ′ ′
D neg = {(s , p,o) | s ∈ I,(s , p,o) < D} (48)
在模型测试阶段, 需要为每一个测试三元组构建候选实体集, 若三元组为类实例、类层级或类属性关系, 与负
I
例构造方法类似, 以整个概念集合 C 为候选实体集替换其尾实体, 否则以实例集合 为候选实体集替换头实体, 但
需要保证新生成的三元组不能是训练集和验证集中的已有三元组, 即 TransE [19] 和 OWL2Vec*中采用的过滤设置
(filter settings). MSV-KRL 将对由候选实体集替换后生成的三元组集合进行打分并进行排序, 依据正确实体的位
次计算 H@k 以及 MRR.
在多语义视图划分阶段, 本文参照 OWL2Vec* [26] 方法中所采用的最优设置, 将随机游走深度设置为 4. 在语义
–5
感知进阶训练阶段, 各项超参数参照 BERT [60] 论文中进行预训练的最优参数设置, 统一设置如下: 学习率为 10 、
批次大小为 128、嵌入维度大小为 768, 在模型损失值不再出现明显下降时停止训练. 在多任务联合表示学习阶
–3
段, 经过多次预实验对比分析, 得到如下最优参数: 学习率为 10 、批次大小为 512、训练轮数为 60 轮. 针对 MLP
分类器的隐藏层大小, 由于 DBpedia-20k 和 IB2M 两个本体较为复杂, 对模型参数量的要求更大, MSV-KRL 将其
设置为 400, 其余 3 个本体统一设置为 200. 最后, 将公式 (41) 和公式 (42) 中的超参数 β 设置为 0.999, 与 SLAW 算
法 [61] 中原始值一致.
3.2 整体实验结果
3.2.1 类实例预测任务
HeLis 类实例预测任务的整体实验结果如表 5 中所示. 实验结果表明, MSV-KRL 在所有指标上都要优于对比
的基线方法, 且与 OWL2Vec*等 OWL 图谱表示学习方法相比, MSV-KRL 各项指标都有较大幅度提升, 证明面向
多语义视图的多任务联合学习方法能够有效捕捉概念层和实例层之间的语义关联, 提升知识嵌入学习能力. 此外,
MSV-KRL 在各项指标上也能远超 TransE 等传统知识图谱表示学习方法, 这是由于这类方法需要通过多种不同关
系对实体进行建模, 而在当前任务中仅基于类实例关系展开训练测试, 造成这类方法无法有效区分不同的类和实
2
例. Box EL 能够有效建模 OWL 图谱中概念层描述逻辑公理信息, 但无法处理 OWL 图谱中实例层信息, 因此该方
法在当前任务中的性能有待提升. DGS 能够通过概念空间与实例空间的融合建模实例的类型, 但该方法无法仅通
2
过几何空间有效捕捉公理信息, 因此该方法虽在类实例预测任务上要优于 Box EL, 但仍值得优化.
表 5 HeLis 类实例预测任务实验结果
方法 MRR H@1 H@5 H@10
[19]
TransE 0.181 0.090 0.232 0.355
[31]
DistMult 0.253 0.166 0.304 0.437
[28]
TransR 0.298 0.184 0.391 0.559
[56]
Onto2Vec 0.211 0.108 0.268 0.397
[57]
OPA2Vec 0.237 0.146 0.286 0.408
[59]
OWL2Vec v1 0.335 0.215 0.397 0.601
[64]
RDF2Vec 0.345 0.219 0.460 0.655
Transformer (all text) 0.599 0.390 0.870 0.912
Transformer (label) 0.657 0.515 0.824 0.897
Pre-trained Word2Vec 0.899 0.877 0.923 0.933
OWL2Vec* [26] 0.953 0.932 0.978 0.987
DGS [51] 0.101 0.021 0.119 0.267
2
Box EL [23] 0.033 0.014 0.032 0.040
MSV-KRL 0.969 0.951 0.992 0.997

