Page 196 - 《软件学报》2021年第9期
P. 196
2820 Journal of Software 软件学报 Vol.32, No.9, September 2021
数据冲突消解方法层出不穷,现有的数据冲突消解方法大都通过关系扩展的方式实现,并定义了若干冲突
消解策略和冲突消解函数 [36] .但这类方法在适应性和准确性方面分别存在着一定的不足,难以适应大规模数据
的冲突消解任务.另外,还有一些冲突消解策略是从多个冲突值中选择真值.Yin 等人 [42] 基于一些启发式规则提
出了一个解决数据冲突问题迭代计算的准则,设计出了 TruthFinder 算法.但这种方法仅考虑数据源和数据值之
间的关系,没有考虑到数据源之间的依赖关系,这在一定程度上会对最终结果造成不利影响.Lyu 等人 [43] 提出一
种无监督的冲突消解模型,利用数据源-数据源和数据源-数据值之间的关系构造一个异构网络,并将其嵌入至
一个低维空间中,自动地发现数据的真值.
另外,现有冲突消解方法主要是对所有属性的数据冲突问题采取同等对待的方式.但这些方法并没有考虑
不同属性的冲突程度可能不同,也没有考虑不同属性间的相互影响,这在一定程度上也会导致冲突消解的准确
率降低.
1.2.3 属性融合
在对不同数据源的实体信息进行融合时,我们发现这些数据源的信息中,存在名称不同含义相同或名称相
同含义不同的属性.因此,我们需要对实体的属性进行判断,把名称不同但含义相同的属性进行合并,或者把名
称相同却含义不同的属性进行拆分,从而获得更准确、更丰富的属性信息.这个过程我们称之为属性融合.
现有的属性融合的方法包括基于相似距离计算的方法、基于统计语言模型的方法和基于词典匹配的方法
等,主要通过建立模型等方式对实体属性进行相似度计算.2014 年,Jakub 等人 [44] 通过比较数据集的特征和聚集
属性信息来计算两个属性的最小距离,再通过 KNN 算法实现属性对齐.该方法能够在没有丢失重要信息的前提
下实现属性对齐,能够预测个人属性和对齐属性的距离.
2 碎片化数据融合框架
本节先阐述碎片化数据融合框架的主要结构,然后以华谱系统中碎片化家谱数据融合为例,详细介绍碎片
化数据融合框架中家谱数据在每层的处理过程和解决方案,以验证本文提出的碎片化数据融合框架的有效性.
2.1 概述
本文提出了一个碎片化数据融合框架 FDF-HAO,通过 HI、AI 和 OI 三者的交互和协同,为多源异构碎片化
数据的融合过程提供智能支持.该框架在 HAO 智能的技术背景下,以碎片化数据为起点,通过数据获取、数据抽
取、数据规范和数据融合这 4 个模块的处理,最后形成一个由实体和各种关系链接而成的网状知识库,即知识
图谱.框架图如图 1 所示.碎片化数据融合过程可分为以下 4 个部分.
(1) 数据获取层.数据获取层的主要功能是使用爬虫技术(AI)从互联网中获取不同来源和形式的数据.不
同数据源所涉及的数据类型有很多种,如文本文件、表格文件、网页数据等.因此,数据获取层中获取
的碎片化数据具有多源、异构的特点;
(2) 数据抽取层.为了实现数据的统一存储,数据抽取层从底层多源异构的碎片化数据中提取出有价值的
信息,其关键在于结合 HI 和 OI,采用自然语言处理技术(AI),通过对自然语言的词法、句法的分析,实
现实体、关系、属性的抽取;
(3) 数据规范层.数据规范层的主要功能是:在 OI 提供的数据规范标准下,将从数据抽取层中提取的信息
标准化、规范化,以避免因语义异构性引起的数据冲突等问题;
(4) 数据融合层.数据融合层是碎片化数据融合框架的核心,在 HI 和 OI 的智能支持下,使用机器学习技术
(AI)将数据规范层中标准化后的数据进行实体对齐、冲突解决和属性融合,形成以关系为有向边的数
据网络,为后期的高级知识应用和服务提供数据基础.