Page 200 - 《软件学报》2021年第9期
P. 200
2824 Journal of Software 软件学报 Vol.32, No.9, September 2021
八月十二日”等.我们需要将这类数据转换成常见的数据类型,即“yyyy 年 mm 月 dd 日”.鉴于家谱领域
数据的特殊性,我们根据 OI 提供的家谱领域数据规范标准,人工构建外部语义知识库,对特殊属性值进
行规范化.例如:对于上述提及的时间属性,人工构建古代皇帝年号时间表(见表 2)和中国古代纪年表
(见表 3),计算标准化后的日期.
Table 2 Years of ancient emperors
表 2 古代皇帝年号时间表
年号 开皇 仁寿 … 顺治 康熙 雍正 乾隆 嘉庆 …
起始年份(年) 581 601 … 1644 1662 1736 1736 1796 …
Table 3 Chronology of ancient China
表 3 中国古代纪年表
古代纪年 甲子 乙丑 … 甲申 乙酉 丙戌 丁亥 戊子 …
年份(年) 1804 1805 … 1824 1825 1826 1827 1828 …
2.5 数据融合层
数据融合层是数据融合框架中的核心层,为数据应用层的接口和服务提供数据基础.数据融合层通过使用
机器学习技术(AI),将上一层规范后的数据融合成一个统一、互联的数据网络,具体过程可分为以下 3 个部分.
(1) 实体对齐,找出不同数据源中的相同实体,以便进行下一步的融合;
(2) 冲突消解,解决不同数据源中对于同一实体的数据冲突问题;
(3) 属性融合,通过对不同数据源中实体属性的融合,从多源、碎片化的数据中凝练出实体的统一的准确
的描述.
2.5.1 家谱人物对齐
对于海量多源的家谱数据,如果我们对其中的人物做人工标注,将耗费大量的精力.因此,本文使用无监督
的方法对家谱中存在的相同人物进行识别.无监督的实体对齐方法的主要思想是,利用相似性等特征将实体聚
类到同一类别中 [36] .
在对大量家谱数据进行研究与分析的基础上,HI 构建家谱领域内候选实体对生成规则库,组成候选实体对,
之后,利用基于相似性的无监督实体对齐算法(AI)判断候选实体对中的人物是否相同.实体对齐算法可以分成
两个子模块:候选实体对生成和候选实体对相似度计算.
(1) 候选实体对生成
在该模块,检测出两份家谱中所有可能相同的人物,组成候选实体对.为了提高召回率并且尽可能全面地检
测出人物的候选实体,我们在对家谱数据分析后,总结出在家谱数据中存在相同人物的情况,如下所示.
• 两个人物姓和名完全相同.同名人物为相同人物是家谱数据中最常见的情况;
• 两个人物姓相同,名部分相同.家谱中的人物姓名通常由“姓+辈份+名”组成,但有时人物姓名仅为“姓+
名”.例如,“吴自忠”的辈份为“自”,则“吴忠”可能也指代“吴自忠”;
• 两个人物姓相同,一人的名与另一人的字或号完全相同.在一些家谱中,会存在以人物的字或号表示人
物的情况.例如,唐朝诗人“李白”字“太白”,因此“李太白”也指代“李白”;
• 两个人物姓不同,名完全相同.随着时间的推移,“姓氏改易”现象经常发生.皇室赐姓、家族迁徙、人物
过继等情况均会导致姓氏的变化.因此,同一人物在不同时期可能具有不同的姓氏,出现同名不同姓的
情况;
• 两个人物相同,则其后代极有可能相同.如果我们已经确定两份家谱中的人物相同,那么其后代也有很
大可能为相同人物.
HI 将上述总结出的家谱数据相同人物的特点转换成计算机能够读取的语言,设计一组简单有效的候选实
体生成规则,使用基于规则的候选实体生成方法为每个待判断的人物生成一系列候选实体,组成候选实体对.该