Page 194 - 《软件学报》2021年第9期
P. 194

2818                                 Journal of Software  软件学报 Vol.32, No.9,  September 2021

                 提出了新的针对家谱数据的数据抽取方法;
             (3)  在 HI 的协作下,采用了一个面向家谱人物的无监督实体对齐算法,能够准确高效地从海量家谱数据
                 中识别出相同人物;
             (4)  结合 OI 制定一套多源异构家谱人物属性的冲突解决机制,能够简单高效地从多个冲突值中选择
                 真值;
             (5)  根据家谱数据的特点,在 HI 和 OI 的智能支持下,设计了一个面向家谱领域的属性融合算法,能够从多
                 源、碎片化的数据中凝练出实体的统一的、准确的、有用的描述.
             本文第 1 节对相关工作进行阐述.第 2 节对本文提出的碎片化数据融合框架 FDF-HAO 进行详细描述.第 3
         节举例验证本文提出框架的有效性,并对框架中采用的关键技术与同类技术进行性能对比分析.第 4 节对碎片
         化数据融合过程中仍存在的挑战进行阐述,并对其应用前景进行展望.第 5 节对全文做总结.

         1    相关工作

         1.1   数据抽取
             数据抽取的主要任务是从大量结构化或非结构化的数据中准确、快速地抽取实体、关系以及实体属性等
         结构化信息     [16] .根据所需抽取信息的种类,数据抽取可分为 3 个模块:实体抽取、关系抽取、属性抽取.
         1.1.1    实体抽取
             实体抽取,也称为命名实体识别(name entity recognition,简称 NER),指识别文本中具有特定意义的实体,主
         要包括人名、组织机构名、地名等             [17] .早期对实体抽取的方法主要是基于规则的方法,即人工构建规则,再从文
         本中寻找匹配这些规则的字符串.例如,Rau             [18] 采用启发式算法与人工编写规则相结合的方法,从财经新闻中自
         动抽取公司名称,实现了不错的效果.但是,人工制定这些规则需要耗费大量时间和精力,而且规则对领域知识
         的依赖性较高,当领域差别很大时,制定的规则无法重用,可扩展性较差.
             后来,随着机器学习在 NLP 领域的兴起,人们开始尝试使用机器学习方法解决实体抽取问题.机器学习方法
         是指从样本数据集合中统计出相关特征和参数,以此建立识别模型                        [19] .Lai 等人 [20] 结合统计原理和条件随机场
         模型,对专利中的化学名称进行识别,在不同数据集上的 F 值均高于 70%.Hwang 等人                      [21] 通过分析学术期刊摘要
         中同时出现在特定词语周围的特定词语之间的搭配关系,建立了一个实体识别模型.Akkasi 等人                              [22] 利用条件随
         机场模型为命名实体识别创建各种基线分类器,然后结合粒子群优化算法和贝叶斯方法对分类器进行选择和
         有效组合.实验表明,该方法选择的分类器集成性能优于单一的最优分类器,也优于采用其他常用选择/组合策
         略形成的两个语料库的集成性能.
             近年来,基于神经网络的深度学习技术成为机器学习领域新的热潮,一些学者开始将深度学习技术应用在
         NER 问题上,以求进一步提高 NER 的效果          [23] .Peng 等人 [24] 借鉴 LSTM 在自动分词上得到较好的结果,提出一种
         LSTM 与 CRF 相结合的模型.结果显示,该方法的 F 值比之前的方法高了将近 5%.Qiu 等人                     [25] 提出了一种基于
         条件随机域的残差扩张卷积神经网络(RD-CNN-CRF),使模型在计算上具有异步性,大大加快了训练周期,实现
         了中文临床命名实体识别.
         1.1.2    关系抽取
             实体和实体之间存在着语义关系,当两个实体出现在同一个句子或同一段落里时,上下文环境就决定了两
         个实体间的语义关系,通过关系将实体联系起来,才能够形成网状的知识结构                           [26] .
             经典的实体关系抽取方法主要分为有监督、半监督、弱监督和无监督这 4 类.有监督的实体关系抽取主要
         分为基于特征和基于核函数的方法             [27] .甘丽新等人 [28] 通过将 2 个实体各自的依存句法关系进行组合,获取依存
         句法关系组合特征,利用依存句法分析和词性标注选择最近句法依赖动词特征,使用支持向量机实现了实体关
         系的抽取.但是有监督方法需要大量的标注数据,浪费时间和精力.因此,人们继而提出了基于半监督、弱监督和
         无监督的关系抽取方法.陈立玮等人             [29] 针对弱监督学习中标注数据不完全可靠的情况,提出基于 booststrapping
         思想的协同训练方法来对弱监督关系抽取模型进行强化,并且对预测关系时的协同策略进行了详细分析.
   189   190   191   192   193   194   195   196   197   198   199