Page 205 - 《软件学报》2021年第9期
P. 205

吴信东  等:碎片化家谱数据的融合技术                                                              2829


         因此,“顺治乙酉年”为 1645 年,“顺治乙酉年八月十二日”应标准化为“1645 年 8 月 20 日”.对于如“开皇十八年十
         二月二十二日”这种形式的日期,在年号的基础上加上相应年份数即可.因此,“开皇十八年十二月二十二日”可
                                                                 g
         转换为“598 年 12 月 22 日”.另外,对转换后的日期进行十字星号标记( ),以便于下一层的数据融合.表 4(d)规范
         化后的结果如表 5 所示.表 4(a)~表 4(c)在数据规范层中的输出结果不变.
             由表 5 可见,本文提出的数据规范方法能够简单有效地将家谱中的人物属性值转换为统一的描述,特别是
         家谱中较难处理的时间类型数据,为下一步家谱数据的融合提供了便利.
                                      Table 5    Results of data specification
                                             表 5   数据规范结果
                                                                配偶   父亲   母亲
           编号      姓名      性别    字    号     出生日期      过世日期                      朝代   官职    葬于
                                                                编号   编号   编号
                                                                                     福建
                                            1600 年     1645 年                             龙旺山
             1    张士绾      男    素卿   澹岩      12 月       8 月      2              明    福州    四甲
                                                                                     府卫
                                                g
                                                           g
                                            29 日( )    12 日( )                            蟠龙地
                                                                                     经历
                                            1599 年     1663 年
             2     龙氏      女                      g         g    1              明
                                           8 月 20 日( )  2 月 21 日( )
             3    张秉豸      男                                          1    2    明
             4     张晓      男                                          1    2    明
             5    张秉骥      男                                          1    2    明
             6    张秉豫      男                                          1    2    明
             7     张曙      男                                          1    2    明
             8   张士绾长女     女                                     9    1    2    明
             9    余能及      男                                     8              明
            10   张士绾次女     女                                     11   1    2    明
            11    王承宠      男                                     10             明
            12   张士绾三女     女                                     13   1    2    明
            13     龙璋      男                                     12             明
             (2)  数据融合层结果
             a)  实体对齐
             以表 4(a)中编号为 2 的人物“黄帝”(记为“(a)2”)为例,根据上述提到的候选实体对生成的情况,为该人物在
         表 4(b)~表 4(d)中选取候选实体.生成的候选实体对为〈“(a)2”,“(b)2”〉,〈“(a)2”,“(c)2”〉,〈“(b)2”,“(c)2”〉.然后,对每个
         候选实体对使用第 3.4.1 节中的公式(3)进行相似度计算.当γ和δ分别取 0.4 和 0.6、阈值设为 0.5 时,结果如表 6
         所示.最终结果表明,表 4(a)中编号为 2 的人物“黄帝”与表 4(b)、表 4(c)中的人物“黄帝”为同一人.
             根据家谱内容,我们可以看出:本文所提的实体对齐算法最终识别结果,即表 4(a)~表 4(c)中的人物“黄帝”均
         为同一人,是与现实世界一致的.这一结果表明,本文所提的实体对齐算法在实体为家谱人物时的对齐结果是准
         确有效的.
                                       Table 6    Results of entity alignment
                                          表 6   实体对齐相似度结果
                                  候选实体对     语义相似度     关系相似度     实体对相似度
                                 〈“(a)2”,“(b)2”〉  0.775  0.44      0.574
                                 〈“(a)2”,“(c)2”〉  0.789  0.667     0.7158
                                 〈“(b)2”,“(c)2”〉  0.8   0.545      0.647

             b)  冲突消解
             观察我们识别出的相同人物“黄帝”的属性信息,发现表(a)中人物“黄帝”的过世日期与表 4(b)和表 4(c)不同.
         根据我们制定的冲突消解机制,过世日期为单真值属性,利用公式(4)得出,“黄帝”的属性过世日期的真值为“公
         元前 2598 年”.由此看出,我们可以根据本文提出的数据冲突机制,简单高效地解决不同来源的数据中出现的数
         据冲突问题.
   200   201   202   203   204   205   206   207   208   209   210