Page 257 - 《软件学报》2020年第9期
P. 257

2878                                 Journal of Software  软件学报 Vol.31, No.9,  September 2020

         究.文献[45]从本体论的角度出发,探讨了几何学知识的获取及表示方法,然而仅简单描述了几何学本体的结构,
         列举了部分属性和关系,识别了一些简单的公理,并未清晰完整地给出几何学知识中的每类对象的本体描述方
         法,也未针对几何学本体知识在用于问题求解时可能需要补充的语义规则集进行讨论.文献[46]提出了基于
         OWL 本体与 Prolog 规则的平面几何知识库的构建方法,用 Protégé 和 Prolog 构建了一个基于本体和规则的平
         面几何知识库,但还都是一些简单对象的语义映射.文献[47]设计了一个本体制导的基于问题框架方法的需求
         建模过程,为需求分析员提供建模指导并规范其建模活动.
             文献[15,16]对几种面向具体学科领域或工程问题的本体建模方法进行了比较.以上本体建模方法或者只
         是提供基本的步骤和简单的指导原则,或者基于面向对象和层次化建模的思想提供了识别领域中类、类属性及
         类之间关系的方法,或者讨论了本体在特定领域中的一些应用,但仅仅构建了一些简单的类和实例对象.均未提
         及本文讨论的深层次语义映射问题.
             3)  如何从领域数据源中半自动或自动地构建垂直领域语义知识库或知识图谱.
             目前公认领域本体的开发需要领域专家的参与,但由于领域知识体系的复杂性,完全由人工构建几乎是不
         可能的,并且在时间上也是不可接受的.因此,如何利用知识获取技术来降低本体构建的开销,已成为一个非常
         活跃的研究方向,相关技术被称为本体学习(ontology learning)技术             [43,48−50] .本体学习,又称为本体获取(ontology
         acquisition),即采用自然语言处理、统计分析、机器学习等技术自动或半自动地从领域数据中获取领域知识,
         并基于本体进行描述.领域数据的类型多种多样,不同类型的数据可能需要采用不同的本体学习方法,可以按领
         域数据的结构化程度将现有的本体学习技术大致分为基于结构化数据的本体学习技术、基于半结构化数据的
         本体学习技术和基于非结构化数据的本体学习技术.文献[43]对现有的本体学习技术和学习工具进行了调查.
         由于实现完全自动的知识获取技术还不现实,整个本体学习过程还是在用户指导下进行的一个半自动的过程.
         本体学习中的很多技术都依赖于对自然语言的处理,所以本体学习工具具有很强的语言特征,目前还没有一个
         能够很好地支持中文的本体学习工具.虽然目前已经提出了很多本体学习方法,但大部分方法都不理想.目前的
         本体学习工具的功能都非常有限,它们都仅能处理某些类型的数据源,获取某些本体学习对象,例如,将关系数
         据库中的表映射为本体模型中的概念,将表字段映射为概念的属性,将字段值映射为属性值等.文献[3]也探讨了
         如何将基于 XML 的 Web 服务、关系数据库以及其他类型数据源映射为 RDF 模型,但也是提取一些简单的对
         象和关系.
             近年来,对知识图谱技术        [51,52] 的研究越来越受到关注.知识图谱是结构化的语义知识库,其描述方法同基于
         本体的知识表示模型.知识图谱可以用于支撑语义搜索、智能问答、知识推理等智能化、精准化的应用.各个
         垂直领域存在大量结构化、半结构化和非结构化的数据,如何发挥这些数据的价值,一种最可行的解决方法就
         是建立面向垂直领域的知识图谱,用于支撑垂直领域的语义搜索、数据集成、数据分析等智能化的应用.华东
         理工大学的阮彤教授就垂直领域的知识图谱,面向图书馆、证券、医疗等行业做了部分探索                                  [53−56] ,其研究工作
         聚焦在如何迭代式构建领域本体(即领域本体 Schema 定义)、如何从行业拥有的多种中文数据源(例如关系数
         据库、文本、网页等)中自动或半自动地抽取出结构化的领域知识(即领域实例数据定义)、如何实现异源数据
         的融合(即本体映射)等.
             本体学习中的领域数据源往往并不是专家整理后的知识,而是一些面向业务过程的数据或者面向领域教
         育的素材.所以,现有的本体学习技术和工具还没有深入探讨本文提出的语义映射问题.
             4)  通过本体集成和本体映射对现有的本体进行复用.
             由于本体具有的强大的知识表示和推理能力,已经出现了很多基于本体构建的领域语义知识库.现有的本
         体构建方法     [15−17] 都强调在基于本体构建领域语义知识库之前,考虑集成和复用已经存在的领域本体库.一方面,
         因为构建领域本体库的目的本身是为了领域知识的共享、集成和复用,通过集成和复用已有的领域本体库,既
         体现了这个目的的价值,也有利用所构建的领域知识库的共享、集成和复用;另一方面,通过集成和复用已有的
         领域本体库,在此基础上进行修订和扩展,可以帮助快速构建满足领域应用问题求解需求的新的领域本体库,例
         如通过本体集成(ontology integration) [57] 和本体映射(ontology mapping) [58] 的方法来快速构建所需要的领域本
   252   253   254   255   256   257   258   259   260   261   262