Page 201 - 《软件学报》2021年第9期
P. 201
吴信东 等:碎片化家谱数据的融合技术 2825
方法不仅能充分考虑到所有可能性的发生,提供较为全面的候选实体对,保证了结果的召回率,还大大降低了实
体对齐的计算复杂度.
(2) 候选实体对相似度计算
在这一模块中,我们采用无监督的基于相似性的实体对齐方法(AI),通过计算候选实体对之间的相似度,判
断候选实体对中的两个实体是否指代真实世界中的同一个实体.根据对家谱人物数据的语义信息与特征的观
察与分析,我们将候选实体对之间的人物相似度分为语义相似度和关系相似度两部分.
a) 语义相似度
人物的语义信息是判断人物是否相同的重要依据.语义相似度用来测量人物之间语义信息的相似度.给定
两个待判断的人物 e i 和 e j ,p={p 1 ,p 2 ,…,p n }为人物相同属性的集合.我们通过两个人物之间相同属性的属性值相
似度来计算两个人物之间的语义相似度,语义相似度计算公式如下:
n
φ (, )ee = ∑ ω L ( , )e e (1)
i j i p i j
i= 1
其中,p={p 1 ,p 2 ,…,p n }表示人物相同属性的集合;L pi (e i ,e j )表示第 i 个属性 p i 的字符串相似度,计算方法选择较为常
用的 Levenshtein 编辑距离 [46] ;ω为每个属性相似度的权重.这里.我们认为每个属性的重要程度相同,即每个属
性的权重相同,若属性的个数为 n,则属性权重为 1/n.
b) 关系相似度
家谱数据中,每个人物除了具有语义信息以外,人物与人物之间还拥有大量的亲属关系.人物之间关系的相
似度,也是判断人物是否相同的一个重要依据.本文采用基于 Jaccard 相关系数 [47] 的关系相似度计算方法.给定
两个待判断的人物 e i 和 e j ,其关系相似度计算公式如下:
|( )R e ∩ R ( ) |e
(, )e =
Re i j i j (2)
|( ) ∪ R e
( ) |
R e
i j
其中,R(e i )代表人物 e i 的亲属关系,|R(e i )∩R(e j )|表示人物 e i 和 e j 相同的人物关系数量,|R(e i )∪R(e j )|表示人物 e i 和
e j 所拥有的人物关系数量总和.判断人物 e i 和 e j 的关系是否相同时,为了便于比较,如果人物的对应关系人物的
姓名相同,则我们认为人物 e i 和 e j 的关系相同.
综上所述,候选实体对相似度的计算公式如下:
Sim(e i ,e j )=γφ(e i ,e j )+δR(e i ,e j ) (3)
其中,γ和δ分别为语义相似度和关系相似度的权重,用来平衡二者在人物相似度测量中的重要程度.通过对家谱
数据的观察发现:在家谱人物的对齐中,人物的关系相似度比语义相似度更重要,更能反映两个人物是否为同一
个人.举例来说,如果两个人物的父亲和儿子的姓名均相同,无需考虑人物的属性,就基本可以判断这两个人物
为同一个人.并且,家谱数据中人物的属性信息会存在稀疏性的情况,此时人物的语义相似度对家谱人物的对齐
贡献度较小.因此,考虑家谱数据的实际情况,我们适当增加关系相似度的权重δ.具体的权重设置如下:a) 如果
家谱数据的属性稀疏,即属性的个数小于 5,则γ=0.2,δ=0.8;b) 如果家谱数据的属性充足,即属性的个数大于等于
5,则γ=0.4,δ=0.6.本文设置一个阈值 S,若相似度分数 Sim(e i, e j )大于阈值 S,则说明两个人物相同.
2.5.2 家谱数据冲突消解
针对家谱数据冲突问题,充分考虑到家谱领域特性、分布数据源中的表述不完整性、数据本身可能存在的
不一致等,对这些问题进行分析、处理,在 OI 对家谱数据真值进行审核和确认后,本文将家谱人物属性分为两类
——单真值属性和多真值属性,并对不同类别的属性采用不同的冲突消解机制.
(1) 单真值属性
对于单真值属性,如人物的性别、出生日期、过世日期等,有且仅有一个真值.多数投票规则是指:若某一个
值是多数信息源都投票赞成的,则认为这个值有更大的代表性 [48] .通常来说,对同一实体属性,出现次数最多的
事实往往是准确的:
MaxFrequence(ea,f)⇒IsAccurate(f) (4)