Page 195 - 《软件学报》2021年第9期
P. 195
吴信东 等:碎片化家谱数据的融合技术 2819
Hasegawa 等人 [30] 提出了一个无监督的关系抽取方法,其核心思想是,根据命名实体之间的上下文词的相似性对
命名实体进行聚类.
随着近年来深度学习的崛起,学者们逐渐将深度学习应用到关系抽取任务中,主要基础方法有 CNN,RNN,
LSTM 等.Leng 等人 [31] 提出了一种改进的叠加去噪自动编码器的深度学习模型,用于提取不同命名实体之间的
关系.Ji 等人 [32] 充分利用知识库的有监督信息,在 PCNN 和注意力机制的基础上实现了关系的抽取.
1.1.3 属性抽取
属性抽取是指在无序信息文本中将关注实体的属性特征进行集中的提取,可以观察和总结出此实体关于
此属性的价值信息.目前,针对人物属性的抽取研究逐渐增多,并通过不断改进研究方法,抽取工作已取得不错
的成果.
属性抽取当前的研究热点是对半结构化数据的信息抽取.然而,有大量的实体属性信息隐藏在非结构化数
据中,如何从海量非结构化数据中抽取实体属性是值得关注的问题.对于非结构化数据的属性抽取,目前有两种
解决方案:一种是通过自动抽取半结构化数据中的实体属性,生成训练语料库,用于实体属性标注模型,然后将
其应用在非结构化数据的实体属性抽取中 [33] ;另一种方案是采用数据挖掘的方法直接从文本中挖掘实体属性
与属性值之间的关系模式,实现对非结构化数据的属性抽取.实际上,实体属性值附近一般都存在一些用于限制
和界定该属性值含义的关键词,因此可以利用这些关键词来定位实体属性值,进行属性抽取 [34] .
1.2 数据融合
数据融合主要是指整合表示同一个现实世界对象的多个数据源和知识描述,形成统一的、准确的、有用的
描述的过程 [35] ,其过程可分为实体对齐、冲突消解、属性融合.
1.2.1 实体对齐
在真实语言环境中,经常会遇到同一实体指称项对应着多个不同实体的情况.例如,“李娜”这个姓名可以对
应于作为歌手的李娜,也可以对应于作为网球运动员的李娜.另一种情况同样存在,即不同实体指称项对应于同
一实体.例如,“孔子”“孔丘”“孔仲尼”等姓名都代表同一个人物“孔子”.因此,实体对齐问题应运而生.实体对齐 [36]
是判断相同或不同数据集中的两个实体是否指向真实世界同一对象的过程.
最初,实体对齐方法主要基于文本相似性函数对实体进行特征匹配.但这种方法仅考虑实体的上下文语义
信息,忽略了实体之间存在的“共现”关系.1969 年,Fellegi 和 Sunter [37] 提出一种基于传统概率模型的实体对齐方
法,通过将基于属性相似性评分的实体匹配问题转化为分类问题,建立了这个问题的概率模型.这种模型是实体
对齐领域的重要方法,迄今为止,仍然有大量的实体对齐方面的工作建立在这种方法之上.
随着机器学习的兴起,很多机器学习方法也逐渐应用到实体对齐领域,并取得了巨大的进展.机器学习方法
主要将实体对齐问题看作是二元分类问题,根据是否使用标注数据,可以分为有监督学习和无监督学习两类.
Chen 等人 [38] 结合两种监督学习的方法,将多种基础实体对齐系统和上下文特征映射起来,形成统一的聚类决策
模型.
但是在大规模数据的情况下,实体对齐过程中的训练数据是较难获取的,往往需要耗费大量的时间和精力
去对数据进行标注.Guan 等人 [39] 提出了一种自学习的实体对齐方法,充分利用了实体属性中包含的语义信息,
迭代查找语义对齐的实体对.
在实体对齐过程中,候选实体对的生成对结果的正确性起着十分重要的作用.通常来说,为了发现所有的候
选实体对,需要将一个知识库中的所有实体与另一个知识库中的所有实体进行比较,这将导致算法的计算复杂
度随着数据规模二次增长.
1.2.2 冲突消解
检测出碎片化数据中的相同实体后,我们需要对相同的实体的信息进行融合,将同一实体的所有属性信息
合并成一条完整的实体描述信息.但在融合过程中,不同数据源中同一实体的信息可能会因为错误、丢失、数
据过期等原因出现冲突的情况 [40] .因此,我们需要在各数据源提供的值中,选择与真实世界相一致的值,即数据
的真值.这个过程我们称之为数据冲突消解 [41] .