Page 207 - 《软件学报》2021年第9期
P. 207
吴信东 等:碎片化家谱数据的融合技术 2831
图 2(b)展示的家谱为例,表 8 展示各方法对人物“黄帝”的相关抽取结果.
Table 8 Data extraction results by different methods
表 8 数据抽取对比结果
方法 抽取结果
我们的 [“黄帝”,“父亲”,“少典”]、[“黄帝”,“妻子”,“西陵氏”]、[“黄帝”,“妻子”,“方雷氏”]、
方法 [“黄帝”,“妻子”,“彤鱼氏”]、[“黄帝”,“儿子”,“玄嚣”]、、[“黄帝”,“儿子”,“昌意”]
DSNFs [49] [“黄帝”,“有”,“西陵氏”]、[“黄帝”,“有”,“方雷氏”]、
[“黄帝”,“有”,“彤鱼氏”]、[“西陵氏嫘祖”,“妃”,“黄帝”]
Jiagu [50] −
由表 8 可以看出:我们的方法在家谱数据上能够准确全面地抽取出人物间关系和人物属性,DSNFs 仅能抽
取部分信息,而 Jiagu 未能抽取到人物信息.其原因在于:DSNFs 和 Jiagu 均是在依存句法分析的基础上对实体和
关系进行抽取,这类方法受限于中文分词等 NLP 技术的性能,适用于文本句法结构简单、NLP 技术能对文本进
行有效分析和处理的情况下.但家谱数据的用词语法与我们常用的文本不同,行文风格偏向古文,甚至一些家谱
不包含完整的语句.由于家谱数据的文本特点,现有主流信息抽取工具通常很难有效地对家谱文本中不同成分
的结构关系进行提取.为此,我们的方法针对家谱数据特点进行设计,通过分析家谱中的浅层词法特征,在 OI 提
供的领域知识下,结合专家(HI)对家谱数据的分析,能够有效地对家谱信息进行抽取.
3.2.2 数据融合层
数据融合层中最为关键的一步为家谱人物对齐,下文对家谱人物对齐方法进行对比分析.鉴于家谱人物对
齐过程分为两部分——候选实体对生成和候选实体对对齐,本文将从这两部分对算法的性能进行对比分析.
(1) 候选实体对生成方法
目前,实体对齐算法中,候选实体对生成的方法通常为基于字符串相似度和基于词典的方法.基于字符串相
似度的方法容易产生大量不能对齐的候选实体,导致后续算法的计算复杂度增加.基于词典的方法需要人工构
建词典,从词典中寻找所有可能对齐的实体.而构建词典的过程将耗费大量人力物力.本文通过对家谱数据的分
析,制定了一套家谱领域内候选实体对生成规则,采用基于规则的方法为待对齐实体生成候选实体.优点在于:
一方面能够保证候选实体集合中包含可以对齐的实体,即保证了结果的召回率;另一方面,也避免了不能对齐的
候选实体数目过多,降低了后续计算的复杂度.
(2) 候选实体对对齐方法
在缺乏训练数据的情况下,除本文使用的基于相似性的实体对齐方法外,还可以采用基于词嵌入的方法,将
实体及其上下文转换为词向量进行相似度计算.但词向量的训练过程通常需要大规模语料库或少量种子数据,
生成词向量的好坏依赖于语料库或种子数据的质量 [51,52] .这类方法适用于语料库或标记数据质量较为成熟、训
练出的词向量效果好、能很好地表示实体语义信息的情况下.而家谱数据领域性较强,缺乏适合的语料库.在家
谱中,判断两个人物是否相同的依据就是实体之间的属性及关系是否相同.本文采用的基于相似性的实体对齐
方法,考虑了实体的属性及实体间关系的相似性,相较于其他实体对齐方法,能够根据家谱领域特点,简单高效
地计算家谱领域内实体之间的相似性.
4 碎片化数据融合的挑战和前景
面向多源异构的碎片化家谱数据,本文提出的碎片化数据融合框架能够对其进行有效融合,但仍存在一些
挑战.
• 挑战 1:数据的多模态性
在大数据时代,碎片化数据以文本、图片、视频、音频等不同模态存在.我们在处理这些数据时,需要对其
中包含的内容进行识别、提取并存储.但由于不同模态数据之间的结构差异巨大,没有统一的数据表示形式和
统一的逻辑结构,这使得多模态数据的融合具有一定的挑战性.另外,互联网中的多模态数据如图片、视频等存
在着模糊、有噪声等情况,因此,多模态数据的信息抽取精度无法得到保证,从而对多模态数据的融合精度造成