Page 194 - 《软件学报》2021年第9期
P. 194
2818 Journal of Software 软件学报 Vol.32, No.9, September 2021
提出了新的针对家谱数据的数据抽取方法;
(3) 在 HI 的协作下,采用了一个面向家谱人物的无监督实体对齐算法,能够准确高效地从海量家谱数据
中识别出相同人物;
(4) 结合 OI 制定一套多源异构家谱人物属性的冲突解决机制,能够简单高效地从多个冲突值中选择
真值;
(5) 根据家谱数据的特点,在 HI 和 OI 的智能支持下,设计了一个面向家谱领域的属性融合算法,能够从多
源、碎片化的数据中凝练出实体的统一的、准确的、有用的描述.
本文第 1 节对相关工作进行阐述.第 2 节对本文提出的碎片化数据融合框架 FDF-HAO 进行详细描述.第 3
节举例验证本文提出框架的有效性,并对框架中采用的关键技术与同类技术进行性能对比分析.第 4 节对碎片
化数据融合过程中仍存在的挑战进行阐述,并对其应用前景进行展望.第 5 节对全文做总结.
1 相关工作
1.1 数据抽取
数据抽取的主要任务是从大量结构化或非结构化的数据中准确、快速地抽取实体、关系以及实体属性等
结构化信息 [16] .根据所需抽取信息的种类,数据抽取可分为 3 个模块:实体抽取、关系抽取、属性抽取.
1.1.1 实体抽取
实体抽取,也称为命名实体识别(name entity recognition,简称 NER),指识别文本中具有特定意义的实体,主
要包括人名、组织机构名、地名等 [17] .早期对实体抽取的方法主要是基于规则的方法,即人工构建规则,再从文
本中寻找匹配这些规则的字符串.例如,Rau [18] 采用启发式算法与人工编写规则相结合的方法,从财经新闻中自
动抽取公司名称,实现了不错的效果.但是,人工制定这些规则需要耗费大量时间和精力,而且规则对领域知识
的依赖性较高,当领域差别很大时,制定的规则无法重用,可扩展性较差.
后来,随着机器学习在 NLP 领域的兴起,人们开始尝试使用机器学习方法解决实体抽取问题.机器学习方法
是指从样本数据集合中统计出相关特征和参数,以此建立识别模型 [19] .Lai 等人 [20] 结合统计原理和条件随机场
模型,对专利中的化学名称进行识别,在不同数据集上的 F 值均高于 70%.Hwang 等人 [21] 通过分析学术期刊摘要
中同时出现在特定词语周围的特定词语之间的搭配关系,建立了一个实体识别模型.Akkasi 等人 [22] 利用条件随
机场模型为命名实体识别创建各种基线分类器,然后结合粒子群优化算法和贝叶斯方法对分类器进行选择和
有效组合.实验表明,该方法选择的分类器集成性能优于单一的最优分类器,也优于采用其他常用选择/组合策
略形成的两个语料库的集成性能.
近年来,基于神经网络的深度学习技术成为机器学习领域新的热潮,一些学者开始将深度学习技术应用在
NER 问题上,以求进一步提高 NER 的效果 [23] .Peng 等人 [24] 借鉴 LSTM 在自动分词上得到较好的结果,提出一种
LSTM 与 CRF 相结合的模型.结果显示,该方法的 F 值比之前的方法高了将近 5%.Qiu 等人 [25] 提出了一种基于
条件随机域的残差扩张卷积神经网络(RD-CNN-CRF),使模型在计算上具有异步性,大大加快了训练周期,实现
了中文临床命名实体识别.
1.1.2 关系抽取
实体和实体之间存在着语义关系,当两个实体出现在同一个句子或同一段落里时,上下文环境就决定了两
个实体间的语义关系,通过关系将实体联系起来,才能够形成网状的知识结构 [26] .
经典的实体关系抽取方法主要分为有监督、半监督、弱监督和无监督这 4 类.有监督的实体关系抽取主要
分为基于特征和基于核函数的方法 [27] .甘丽新等人 [28] 通过将 2 个实体各自的依存句法关系进行组合,获取依存
句法关系组合特征,利用依存句法分析和词性标注选择最近句法依赖动词特征,使用支持向量机实现了实体关
系的抽取.但是有监督方法需要大量的标注数据,浪费时间和精力.因此,人们继而提出了基于半监督、弱监督和
无监督的关系抽取方法.陈立玮等人 [29] 针对弱监督学习中标注数据不完全可靠的情况,提出基于 booststrapping
思想的协同训练方法来对弱监督关系抽取模型进行强化,并且对预测关系时的协同策略进行了详细分析.