Page 208 - 《软件学报》2021年第9期
P. 208

2832                                 Journal of Software  软件学报 Vol.32, No.9,  September 2021

         一定的负面影响.
             •   挑战 2:数据的不确定性
             数据真伪难辨是数据处理及应用的最大挑战                 [12] .海量多源的碎片化数据,使我们的研究获得了前所未有的
         大规模样本,但也带来了更多错误的、不完整的数据.数据质量良莠不齐,不同来源的数据值可能存在冲突、缺
         失、描述模糊等情况.为了从海量多源的碎片化数据中准确地找出真实确定的数据,需要利用数据处理方法对
         数据、数据源等信息进行建模求解.但对于一些数据,即使最好的数据处理方法也难以消除其固有的不可预测
         性.例如在家谱领域内,一份家谱中的同一人物在不同版本中存在姓名不同的情况.根据家谱内容,我们无法确
         定造成不同的原因是人物的姓名更改还是书写时的笔误,因此该人物的姓名具有无法消除的不确定性.
             •   挑战 3:数据的单源小体量性
             碎片化数据最显著的特征就是单源小体量性.来自单个数据源的碎片化数据通常内容较短,包含的信息不
         充足,数据具有较高的稀疏性.因此,在对碎片化数据进行信息抽取和融合时,大多需要借助外部语义知识库中
         的语义信息.这种方法虽然能提高算法的精确度,但对外部知识库依赖度较高.当出现知识库中不存在的信息
         时,需要对知识库进行及时地更新,否则将无法提取新的信息.
             •   挑战 4:数据的语义异构性
             不同数据源的碎片化数据在语义表述上存在一定的差异性,相同含义的词汇具有不同的表述,我们将之称
         为语义异构.数据的语义异构性可能会造成来自不同数据源的碎片化数据无法相互融合,进而导致数据共享、
         重用无法进行,因此我们必须考虑消除碎片化数据之间的语义异构性.通常来说,我们采用将不同数据源的数据
         映射到同一套概念体系即本体的方法来解决语义异构.但是本体的构建本身就是一个工作量大的任务.另外,大
         数据时代中数据的不断更新也会带来一些新的概念,这就需要一个合适的机制对本体进行不断地更新和维护.
             碎片化数据融合在多源数据分析和大知识融合领域具有广泛的研究和利用前景,下面我们分析几个应用
         场景.
             •   应用场景 1:同姓家谱的知识扩充以及跨姓家谱的知识挖掘和推理.
             碎片化家谱数据融合有利于同姓家谱的合并与扩充.通过对已有的同姓家谱进行关联计算和合并计算,实
         现家谱的补齐和扩充,扩展知识网络.例如,假设存在两份同姓家谱 A 和 B,经过计算发现二者之间存在关联:家谱
         A 记录某家族 P 从第 1 世~第 20 世的人物信息,家谱 B 记录同一家族 P 从第 10 世~第 30 世的人物信息.合并家
         谱 A 和 B,我们可以得到一份全新的、更为完整的家谱 C,记录家族 P 从第 1 世~第 30 世的人物信息.另外,碎片
         化家谱数据融合也为跨姓家谱的知识挖掘和推理提供了数据支撑.通过对不同姓氏家谱的人物进行对比和分
         析,寻找跨姓家谱之间的相同人物,以该人物为纽带,建立家谱之间的关联,挖掘其中潜藏的姓氏起源、姓氏演变
         等信息.从家谱数据库中已有的数据出发,经过计算机推理,建立人物之间的新关联,从而拓展和丰富知识网络,
         推理人物间的爱恨情仇,为用户解决寻根溯源等问题.
             •   应用场景 2:社交网络信息分析.
             社交网络用户数量庞大,微博、推特、豆瓣等常见的社交平台上每天产生大量的图片、文字及音频信息.
         这些碎片化社交数据中隐藏着许多有用的信息,包括用户的日常琐事、兴趣爱好、热点事件的发展过程等等.
         通过对碎片化社交数据的融合,以用户为中心,构建用户社交知识图谱,预测用户之间潜在的联系,为其提供好
         友推荐、信息推送等个性化社交服务.
         5    总   结

             本文在 HI、AI 和 OI 三者的交互和协同下,提出了一个碎片化数据融合框架 FDF-HAO,并论述了碎片化数
         据融合框架的层次结构,详细介绍了每一层的作用、所需要解决的问题和使用的技术.其中,数据获取层使用爬
         虫技术(AI),从互联网中各数据源获取碎片化数据,包括文本文件、表格文件、网页文件等;数据抽取层通过自
         然语言处理技术(AI),在 HI 和 OI 的交互和协作下,从这些多源异构的碎片化数据中提取实体、属性及关系;数
         据规范层根据 OI 提供的领域数据规范标准,负责将数据抽取层中抽取的信息进行规范化和标准化,消除了数据
   203   204   205   206   207   208   209   210   211   212   213