Page 203 - 《软件学报》2021年第9期
P. 203
吴信东 等:碎片化家谱数据的融合技术 2827
3 结果展示及对比分析
3.1 结果展示
(1) 数据获取层结果
本文选取 4 份家谱数据为例,展示其运行结果.文本是家谱数据中较为常见的数据类型,因此本文选取的家
谱示例均为文本格式.在家谱文本数据中,每个人物的描述信息独立成段,如图 2(a)~图 2(d)所示.由于家谱数据
篇幅较长,本文仅截取家谱部分内容以供展示.
人文始祖:黄帝(公元前 2733 年~公元前 2598 年).
黄帝(公元前 2733 年~公元前 2599 年):少典之子, 姬姓,少典之子.黄帝娶有 4 妃:西陵氏、方雷氏、
古华夏部落联盟首领,中国远古时代华夏民族的共主. 彤鱼氏和嫫母.4 室有 25 个儿子.西陵氏嫘祖,
五帝之首.被尊为中华“人文初祖”.史载黄帝因有 是黄帝的元妃,生有 2 子,长子叫玄嚣,次子叫昌意.
土德之瑞,故号黄帝.黄帝以统一华夏部落与征服 黄帝二世:玄嚣,黄帝长子.
东夷、九黎族而统一中华的伟绩载入史册.黄帝 黄帝三世:蟜极,玄嚣之子.
在位期间,播百谷草木,大力发展生产,始制衣冠、 黄帝四世:帝喾,蟜极之子,又称高辛氏.
建舟车、制音律、创医学等. 黄帝五世:后稷,帝喾之子,名弃,周朝始祖.初仕尧,
玄嚣,黄帝之子,上古部落首领. 官司农,教民稼穑;继佐舜,亦官大司农,播种五谷,
封国于邰.
(a) (b)
始祖:黄帝(前 2733~前 2598),姓公孙,少典之子,母曰附室. 张士绾,字素卿,号澹岩.生明万历庚子年十二月
生于轩辕寿坵,故号轩辕氏;居于姬水,因改姓姬,国于有熊,也称 二十九日午时,卒顺治乙酉年八月十二日子时.福建
有熊氏.黄帝生性灵活,能说会道,道德情操高尚,聪明敏捷,多智 福州府卫经历.配龙氏,文学、讳承锦女,生万历己亥年
善谋,被拥为西北方游牧部族之首领,后统一各部落,代神农而 八月二十日巳时,卒康熙癸卯年二月二十一日亥时.
成为部落联盟之首领,称为“黄帝”.公元前 2697 年登基,时 37 岁, 合葬龙旺山四甲蟠龙地,亥山巳向.
活 111 岁,卒葬陕西黄陵县的桥山上.娶西陵氏之女嫘祖为正妻. 五子:秉豸、晓、秉骥、秉豫、曙.
据说黄帝共娶 4 妃,生子 25 人,其中有昌意、玄嚣等. 三女:长适余能及,次适庐江王承宠,三适龙璋.
(c) (d)
Fig.2 Genealogy data
图 2 家谱数据示例
(2) 数据抽取层结果
获取家谱数据后,将数据送入数据抽取层,进行信息抽取.为了方便查看,将数据抽取结果以表格形式展示,
如表 4(a)~表 4(d)所示.每一行为一条人物信息,每一列分别为人物的属性.由表 4(a)~表 4(d)中可以看出:在数据
抽取层中,除一些人物基础属性如“姓名”“性别”外,不同家谱中能抽取出的人物属性不尽相同.例如,表 4(c)中人
物具有“出生地”属性,表 4(d)中人物具有“字”“号”和“官职”等属性.
另外,由表 4(a)~表 4(d)可见:本文提出的基于 HAO 模型的通用家谱信息抽取方法,在 HI 和 OI 的协助下,
实现对语义的理解,从而较为有效地对家谱数据中的人物属性和关系进行抽取,能保证数据抽取结果的正确性.
Table 4(a) Results of data extraction in Fig.2(a)
表 4(a) 图 2(a)展示内容的数据抽取结果
编号 姓名 性别 出生日期 过世日期 配偶编号 父亲编号 母亲编号 简介
1 少典 男
公元前 公元前 古华夏部落联盟首领,中国
2 黄帝 男 1
2733 年 2599 年 远古时代华夏民族的共主…
3 玄嚣 男 2 上古部落首领