Page 300 - 《软件学报》2025年第12期
P. 300
张明韬 等: 基于嵌入模型的知识图谱准确性评估 5681
本文所提出的框架并不限制特定形式的重要性度量, 此处给出了两种简单基础的三元组重要性度量, 并以此
证明本文框架对不同三元组重要性的可行性与泛用性. 两种基础定义之间存在着差异与共性: 基于网络结构计算
三元组重要性时, 假定重要的实体之间联系紧密, 访问往往从一个待查实体出发, 通过三元组访问到另一个实体,
该过程中重要的实体有更高的概率被频繁地访问到, 因此可以被基于随机游走的 PageRank 算法模拟; 基于关系语
义的三元组重要性则是从关系的角度, 衡量三元组中关系是否为实体的类型提供了重要依据 (例如 (A, lives_in, B)
是一个常见的三元组, 提供的信息仅为为 A 为人名、B 为地名、A 的居住地, 其中前两个信息几乎无用, 而 (A,
is_the_leader_of, B) 隐含着 A 可能是政客且归属于 B、B 为某种政党或组织, 提供了更多额外的信息). 基于网络结
构与关系语义的三元组重要性出发点与侧重点存在不同, 但均能够一定程度反映三元组的重要程度, 体现了知识
图谱中三元组是否处在关键结构/易被频繁访问的倾向.
3 实验分析
本节对方法框架 (主要为阈值选择策略)、嵌入模型与数据集选择、三元组重要性等进行实验分析.
3.1 实验数据集
在验证本文流程的可行性时, 本文选择具有常见知识图谱, 并在其中加入一定比例人工构造的错误三元组生
成模拟数据集 (为保证最终结果的有效性, 此处构造的错误三元组与近似最优阈值时采用的负采样策略分布上并
不相同), 主要包含以下 3 种.
[4]
(1) FB15K-237: FB15K 与 FB15K-237 数据集基于 Freebase 建立, FB15K 为对 Freebase 原数据抽取其中
15 000 个实体对应三元组构建而成, FB15K-237 对 FB15K 中数据筛选产生, 除去了其中的反向关系.
(2) NELL-995: 该数据集抽取自 NELL (never ending language learning) 数据集 [3] 中数据, 其通过对网络相关文
本的实体识别、关系抽取产生, 其代表自动化生成的知识图谱.
(3) YAGO3-10: 该数据集抽取自 YAGO 知识图谱 [1] , 它产生于对部分百科词条的收集归纳, 代表基于已有结
构化、半结构化数据而产生的知识图谱.
关于知识图谱大小、知识图谱稠密性 (可被平均每个实体/每类关系对应三元组反映) 等相关因素见表 2.
表 2 数据集相关信息
因素 FB15K-237 NELL-995 YAGO3-10
实体数 14 541 75 492 123 182
关系数 237 200 37
三元组数 (train) 272 115 149 678 1 079 040
三元组数 (valid) 17 535 543 5 000
三元组数 (test) 20 466 3 992 5 000
平均每个实体对应三元组 21.33 2.04 8.84
平均每类关系对应三元组 1 308.51 771.07 29 433.51
经过人工的抽样检测, FB15K-237 的正确率大约在 93%, NELL-995 的正确率大约在 90%, YAGO3-10 的正
确率大约在 95% (错误样例可见表 1). 本文假定其原有三元组整体正确, 构造模拟数据. 沿用 KGTtm 的错误数
据构造方法 [9] , 对数据集添加构造错误, 构造策略如下: 等概率随机选择一定比例的三元组, 替换其中的头实体
或尾实体为相近实体 (相近实体指与当前三元组有着相同关系 p 的其他三元组中, 当前待替换实体对应位置的
实体, 具体样例可见图 4), 或随机替换其关系 p; 构建出的新三元组不在知识图谱中时, 假定新产生的三元组为
错误三元组.
由此得到 FB15K-237-SYN10, FB15K-237-SYN20, FB15K-237-SYN40 等, FB15K-237-SYN“X”表示在 FB15K-
237 数据中加入 X% 比例错误产生的知识图谱, 此处“X”取值主要借鉴了 NELL 网页初始抽取结果的正确率等级.
对于 NELL-995、YAGO3-10 等有着类似的一系列测试数据集.

