Page 209 - 《软件学报》2021年第9期
P. 209

吴信东  等:碎片化家谱数据的融合技术                                                              2833


         的语义异构性;数据融合层是实现数据融合的核心层,领域专家们(HI)在 OI 的协作下构建外部语义知识库,为数
         据融合提供智能支持,然后通过实体对齐技术(AI)识别出碎片化数据中的相同实体,再通过冲突消解机制(AI)从
         冲突数据中寻找数据的真值,最后通过属性融合(AI)凝练出实体的统一的、准确的、有用的描述,进而完成数据
         的融合,形成知识库.
             与已有的特定领域知识图谱构建相似,本文是在现有的知识图谱构建技术的基础上,通过对数据的观察和
         分析,对技术进行优化和改进.但不同之处在于:本文结合 HAO 智能模型,通过 HI、AI 和 OI 三者的交互和协作,
         为海量多源异构的碎片化数据融合提供了智能支持,能够解决一些仅依靠计算机无法解决的问题.另外,本文结
         合家谱领域特征,将家谱领域知识贯穿于碎片化家谱数据融合的过程中,对各阶段结果进行约束和改进,有效地
         提高了数据融合结果的准确性和全面性.
             本文以华谱系统中碎片化家谱数据融合过程为例,详细介绍所提框架在每层中的具体处理思路和方案,为
         解决碎片化数据融合问题和中文知识图谱构建问题提供了一个新思路,即:在现有成熟模型和方法的基础上,结
         合 HAO 智能模型,为中文知识图谱构建提供智能支持,以便更好地提高数据的准确性和可用性.另外,本文在框
         架内各层次中提出的方法也具有一定的通用性,对其他领域的中文知识图谱构建可能具有一定的借鉴意义.
             目前,关于碎片化数据融合的研究尚处于初步阶段,仍存在着许多困难和挑战.本文通过对碎片化数据融合
         过程进行高度抽象和建模,提出了 FDF-HAO 框架,若将该框架迁移到其他领域,需根据领域数据特点调整 FDF-
         HAO 框架的各部分具体实现,存在一定的难度.例如在复杂的社交网络场景中,包含着以用户为中心的不同维
         度、不同领域的碎片化社交数据.但是随着互联网的不断发展,网络平台更新换代,网络词汇层出不穷,网络信息
         多元多样,社交网络数据在自然语言理解和分析方面上具有很大的挑战性,这为社交网络数据的信息抽取和融
         合增加了一定的难度.同样,在网页数据中也包含着大量涉及以人物为中心的人物生平、经历、传记、新闻等
         碎片化数据.然而在不同网络平台中,数据的描述方式和内容侧重点不同,并且存在着大量的数据不确定性、语
         义异构性等问题,因此给现有的数据融合研究带来了很大的挑战.在后续的研究中,我们将首先继续优化本文提
         出的 FDF-HAO 框架;接着,研究将该框架分别应用于融合碎片化的社交网络数据和互联网中碎片化的网页数
         据;最后,以构建整合的人物知识图谱为目标,将家谱、社交网络、网页这 3 个维度的碎片化数据进行融合,从亲
         属关系、社交关系、人物生平等多个维度构建更加完善的人物知识图谱,从而为用户提供更好的大知识服务.

         References:
          [1]    Wang YZ, Jin XL, Cheng XQ. Network big data: Present and future. Chinese Journal of Computers, 2013,36(6):1125−1138 (in
             Chinese with English abstract). [doi: 0.3724/SP.J.1016.2013.01125]
          [2]    Wu XD, Chen HH, Wu GQ, Liu J, Zheng QH, He XF, Zhou AY, Zhao ZQ, Wei BF, Gao M, Li Y, Zhang QP, Zhang SC, Lu RQ,
             Zheng NN. Knowledge engineering with big data. IEEE Intelligent Systems, 2015,30(5):46−55. [doi: 10.1109/MIS.2015.56]
          [3]    Zhan L. Literature questions in genealogy. Journal of Peking University (Philosophy and Social Sciences), 2007,53(1):150−151 (in
             Chinese with English abstract). [doi: 10.16113/j.cnki.daxtx.2007.01.010]
          [4]    Huang XY. Analysis and enlightenment on the causes of the boom of utilization of foreign genealogy. Archives Science Bulletin,
             2007,29(1):30−33 (in Chinese with English abstract).
          [5]    Wu XL. Chinese genealogy and its academic value. Historical Research, 1988,35(6):20−34 (in Chinese with English abstract).
          [6]    Ouyang K. The reform and innovation of big data and humanities and social science research. Guangming Daily, 2016-11-10(016)
             (in Chinese).
          [7]    Sun JJ. How to develop humanities and social sciences in the age of big data. Guangming Daily, 2014-07-07(011) (in Chinese).
          [8]    Xia CJ, Liu W, Chen T, Zhang L. A genealogy data service platform implemented with linked data technology. Journal of Library
             Science in China, 2016,42(3):27−38 (in Chinese with English abstract). [doi: 10.13530/j.cnki.jlis.160014]
          [9]    Chen T, Xia CJ, Liu W, Zhang L. Research and implementation of visualization technology of linked data. Library and Information
             Service, 2015,59(17):113−119 (in Chinese with English abstract).
         [10]    Mao JJ. Development and construction of digital genealogy resources in China. Archives and Construction, 2007,24(1):22−24 (in
             Chinese with English abstract).
   204   205   206   207   208   209   210   211   212   213   214