Page 203 - 《软件学报》2021年第9期
P. 203

吴信东  等:碎片化家谱数据的融合技术                                                              2827


         3    结果展示及对比分析

         3.1   结果展示
             (1)  数据获取层结果
             本文选取 4 份家谱数据为例,展示其运行结果.文本是家谱数据中较为常见的数据类型,因此本文选取的家
         谱示例均为文本格式.在家谱文本数据中,每个人物的描述信息独立成段,如图 2(a)~图 2(d)所示.由于家谱数据
         篇幅较长,本文仅截取家谱部分内容以供展示.
                                                              人文始祖:黄帝(公元前 2733 年~公元前 2598 年).
               黄帝(公元前 2733 年~公元前 2599 年):少典之子,             姬姓,少典之子.黄帝娶有 4 妃:西陵氏、方雷氏、
            古华夏部落联盟首领,中国远古时代华夏民族的共主.                       彤鱼氏和嫫母.4 室有 25 个儿子.西陵氏嫘祖,
            五帝之首.被尊为中华“人文初祖”.史载黄帝因有                        是黄帝的元妃,生有 2 子,长子叫玄嚣,次子叫昌意.
            土德之瑞,故号黄帝.黄帝以统一华夏部落与征服                            黄帝二世:玄嚣,黄帝长子.
            东夷、九黎族而统一中华的伟绩载入史册.黄帝                             黄帝三世:蟜极,玄嚣之子.
            在位期间,播百谷草木,大力发展生产,始制衣冠、                           黄帝四世:帝喾,蟜极之子,又称高辛氏.
            建舟车、制音律、创医学等.                                     黄帝五世:后稷,帝喾之子,名弃,周朝始祖.初仕尧,
               玄嚣,黄帝之子,上古部落首领.                             官司农,教民稼穑;继佐舜,亦官大司农,播种五谷,
                                                           封国于邰.
                                (a)                                        (b)
               始祖:黄帝(前 2733~前 2598),姓公孙,少典之子,母曰附室.            张士绾,字素卿,号澹岩.生明万历庚子年十二月
            生于轩辕寿坵,故号轩辕氏;居于姬水,因改姓姬,国于有熊,也称                 二十九日午时,卒顺治乙酉年八月十二日子时.福建
            有熊氏.黄帝生性灵活,能说会道,道德情操高尚,聪明敏捷,多智                 福州府卫经历.配龙氏,文学、讳承锦女,生万历己亥年
            善谋,被拥为西北方游牧部族之首领,后统一各部落,代神农而                   八月二十日巳时,卒康熙癸卯年二月二十一日亥时.
            成为部落联盟之首领,称为“黄帝”.公元前 2697 年登基,时 37 岁,          合葬龙旺山四甲蟠龙地,亥山巳向.
            活 111 岁,卒葬陕西黄陵县的桥山上.娶西陵氏之女嫘祖为正妻.                五子:秉豸、晓、秉骥、秉豫、曙.
            据说黄帝共娶 4 妃,生子 25 人,其中有昌意、玄嚣等.                   三女:长适余能及,次适庐江王承宠,三适龙璋.
                                (c)                                        (d)

                                            Fig.2   Genealogy data
                                             图 2   家谱数据示例

             (2)  数据抽取层结果
             获取家谱数据后,将数据送入数据抽取层,进行信息抽取.为了方便查看,将数据抽取结果以表格形式展示,
         如表 4(a)~表 4(d)所示.每一行为一条人物信息,每一列分别为人物的属性.由表 4(a)~表 4(d)中可以看出:在数据
         抽取层中,除一些人物基础属性如“姓名”“性别”外,不同家谱中能抽取出的人物属性不尽相同.例如,表 4(c)中人
         物具有“出生地”属性,表 4(d)中人物具有“字”“号”和“官职”等属性.
             另外,由表 4(a)~表 4(d)可见:本文提出的基于 HAO 模型的通用家谱信息抽取方法,在 HI 和 OI 的协助下,
         实现对语义的理解,从而较为有效地对家谱数据中的人物属性和关系进行抽取,能保证数据抽取结果的正确性.
                                  Table 4(a)    Results of data extraction in Fig.2(a)
                                    表 4(a)   图 2(a)展示内容的数据抽取结果
               编号   姓名   性别    出生日期    过世日期     配偶编号    父亲编号    母亲编号             简介
                1   少典    男
                                公元前     公元前                              古华夏部落联盟首领,中国
                2   黄帝    男                                1
                               2733 年   2599 年                           远古时代华夏民族的共主…
                3   玄嚣    男                                2                 上古部落首领
   198   199   200   201   202   203   204   205   206   207   208