Page 193 - 《软件学报》2021年第9期
P. 193

吴信东  等:碎片化家谱数据的融合技术                                                              2817


         verifies the validity of the data fusion framework by using genealogy data as an example. Finally, the challenges and opportunities of
         fragmented data fusion are also discussed.
         Key words:    fragmented data; data fusion; genealogy data; multiple heterogeneous sources; HAO intelligence model

             随着互联网、云计算等技术的迅猛发展,网络空间中的数据以不可预计的速度增长,信息社会进入了大数
               [1]
         据时代 .除了大数据的“5V”特征外,数据碎片化已成为大数据处理中不可忽视的问题.如何有效地融合这些碎
         片化数据,从多源异构的碎片化数据中获取整个大数据集合的全局数据特征,继而从海量碎片化数据中提取出
         有价值的信息,已成为学术界的研究重点和热点.
             在大数据环境下,由于数据的多源异构性,来自不同数据源的碎片化数据往往具有不同的数据结构和形式.
         碎片化数据融合的首要挑战就是:如何从这些多源异构的数据中抽取出真正有价值的信息,使用合适的处理机
         制对碎片化数据进行提取和分析.另外,碎片化数据融合并不只是简单地将数据“拼凑”在一起,而是通过分析碎
         片化数据之间的内在联系,得到新的、完整的数据.此外,经过融合后的数据通常具有复杂的语义关系,为此,我们
                                                                                   [2]
         需要寻找一种标准化的数据表示方式对其进行存储与表示.故而,碎片化数据融合极具挑战性 .本文以碎片化
         家谱数据融合为例,详细阐述了数据融合过程中存在的问题和解决方案.
             家谱资料的数字化使得网络中的家谱数据资源不断增多,是典型的碎片化数据.家谱与正史、地方志并列
                                   [3]
         为我国历史研究的三大基石之一 ,它不仅记录族人最基本的世系状况,还记录族人的姓氏源流、族规家训等内
                                        [4]
                                                                    [5]
         容,涉及历史、人口、经济等多门学科 ,具有重要的学术价值和史料价值 .从这些多源分散的家谱数据开始,
         使用大数据技术及手段对其进行碎片化重组及融合,有利于对家谱中历史、经济等复杂信息的研究与分析,深
         度揭示家谱大数据中尚未发现的或难以处理的问题,增强人民群众对寻根问祖的需求,增加海外华侨对祖国的
         认同感,实现大数据技术与人文社会科学研究的“双赢”                  [6,7] .
             现有的专门针对家谱数据的研究较少,且大多数都侧重于对家谱数据的存储研究                              [8−11] ,缺少对家谱数据融
         合及知识挖掘与推理方面的研究.其主要原因在于:一方面,大量的家谱数据属于传统数据资源,在大数据时代,
         这些数据必须与其他数据进行有效整合才能更易于被用户使用,比如电子化、网络化等,因此往往需要面对着
         非常巨大的处理成本和转换成本            [12] ;另一方面,家谱大数据真正难以对付的挑战来自于数据类型多样、数据多
         源异构的特征和数据的不确定性            [13] .
                                                                                 [2]
             针对碎片化大数据的分析和应用,吴信东等人提出了一种大数据知识工程模型 BigKE ,该模型采用一种
         三层次的知识建模方法:首先,对多源异构数据中的碎片化知识进行建模;然后,使用知识图谱对碎片化知识进
         行非线性融合;最后,以用户需求为导向,提供具有个性化和实时使用价值的知识服务                              [14] .BigKE 考虑到大数据
         的异构和自治特征,对大数据挖掘形成的知识图谱提出了个性化服务的导航,更有利于和具体的应用实例结合.
             在大数据知识工程 BigKE 的技术框架下,吴信东团队推出了面向所有华人姓氏的家谱系统——华谱系统
         (华谱系统网址:http://zhonghuapu.com).华谱系统通过对家谱数据进行碎片化知识融合,旨在为用户提供姓氏的
         起源、姓氏的变迁、姓氏间关联等信息.目前,华谱系统中人物数量已超过 1587 万,姓氏数目已超过 720,数据源
         超过 500 个.系统数据量还在与日俱增.
             在华谱系统中碎片化家谱数据融合过程的基础上,结合 HAO 模型                      [15] ,本文提出一个针对碎片化数据的融
         合框 架 FDF-HAO(fragmented data fusion  framework  with  human intelligence, artificial intelligence and
         organizational intelligence).该框架从碎片化数据开始,通过 HI(人类智能)、AI(人工智能)和 OI(组织智能)三者的
         交互和协同,实现多源异构的碎片化数据的融合,最后形成一个由实体和各种关系链接而成的网状知识库,即家
         谱人物知识图谱.人类智能指领域专家们所提供的专家知识.人工智能指机器完成的智能工作,如自然语言处理
         技术、机器学习算法等.组织智能涵盖了一个组织的全部知识能力                        [15] ,在本文中指家谱领域内的领域规范或行
         业标准.
             本文提出的 FDF-HAO 融合框架具有以下几个特点.
             (1)  通过 HI、AI 和 OI 三者的交互和协作,为大规模、异构、多源的碎片化数据融合提供智能支持;
             (2)  通过对家谱数据语义和语法特征的观察与分析,基于 HI 和 OI 提供的专家知识和数据标准,在框架内
   188   189   190   191   192   193   194   195   196   197   198