Page 235 - 《软件学报》2020年第9期
P. 235
2856 Journal of Software 软件学报 Vol.31, No.9, September 2020
[1]
本体(ontology)是共享概念模型的明确的形式化的规范说明 ,其提供了一种结构化地表示领域知识的形
式化方法,并提供了推理能力,构造本体可以实现某种程度的知识共享和重用.由于本体具有的强大的知识表示
[2]
和推理能力,已经在很多领域得到了广泛的应用,例如语义 Web 、知识工程、自然语言处理、信息获取、信息
集成、生物医学等领域,用于领域问题求解、异构信息源之间的交互、辅助组织中人与人之间的沟通等.基于
[3]
本体的信息建模主要借助于一个互补的语言集合,该集合包含 3 种语言 :资源描述框架(resource description
[5]
[4]
framework,简称 RDF) 、RDF 词汇定义(RDF schema,简称 RDFS)语言 、Web 本体语言(Web ontology language,
[6]
简称 OWL) .由于直接使用这些本体描述语言来进行本体建模很不方便,也难以掌握,于是出现了一些图形化
[9]
[8]
[7]
的本体编辑工具,例如 Protégé ,OntoEdit ,KAON 等.这些本体编辑工具很好地简化了领域知识的形式化描
述过程,但却并不能很好地帮助指导如何建模领域知识库,而这正是本体工程 [10] 所要研究和解决的核心问题.与
软件工程、面向对象设计和知识工程类似,本体工程研究本体构建的方法学,涉及本体构建的过程、采用何种
工具和语言、以何种顺序使用这些工具和语言、如何应用这些工具和语言、质量控制和资源管理等.针对不同
学科领域、工程问题或应用场景,目前有多种本体构建方法,例如面向对象的本体建模方法 [11,12] 、基于层次的本
体建模方法 [13,14] 、面向具体学科领域或工程问题的本体建模方法 [15,16] 等.但是目前尚没有一种标准的、适用于
所有学科领域或应用场景的本体建模方法,实际上也不可能存在建模本体的唯一的正确的方法,最好的解决方
案总是依赖于具体的应用,对本体质量的评价也唯一取决于使用它的应用.因为构建本体本身并不是一个最终
目标,而是为了应用的需求而提供一套数据集和它们之间的结构,而且本体开发总是一个迭代和不断精化的过
程 [17] .无论采用何种方法进行本体开发,一般应遵循 Gruber 提出的 5 条原则 [18] :清晰性(clarity)、一致性
(coherence)、可扩展性(extendibility)、编码偏好程度最小(minimal encoding bias)、本体约定最小(minimal
ontological commitment).
现有的本体建模方法都只是对建模过程从不同的方法学、学科领域或工程问题的角度提出了一些简单的
指导原则和基本步骤,而在进行实际的领域语义知识库建设时,会面临大量更加具体的共性问题或者特定问题,
使得知识工程师仍然无从下手.目前公认领域本体的开发需要领域专家的参与,并由知识工程师将领域专家提
供的领域知识建模并形式化为可被计算机处理和共享利用的领域本体知识.于是,从专家角度看到的知识视图
(简称专家视图,即领域知识模型)和从知识工程师角度看到的本体知识视图(简称本体视图,即本体知识模型)可
能是不同的.专家并不理解也不关心基于本体的知识建模和形式化方法,而只关心知识对人的易理解性和易使
用性.知识工程师建立本体知识视图时更多考虑的是本体描述语言的描述能力、Gruber 提出的 5 条原则、领域
应用需求的可满足性、知识服务实现的合理性和方便性等.由于领域知识本身的复杂性和这两种视图表示方法
和目的的不同,专家视图和本体视图几乎不可能是一样的,也即需要建立专家视图和本体视图之间的正确语义
映射,才能真正实现领域知识的存储、共享、集成和复用.基于大量实践发现:这个映射过程存在大量需要解决
的关键问题,而其中一些关键问题是在建模面向不同学科领域或工程问题的不同类型本体时面临的共性问题,
例如:
1) 在专家视图中,一词多义的现象很普遍,资源对象的语义一方面通过采用某种语言描述的资源名称的
含义来表达,另一方面,通过资源对象应用的领域上下文来丰富或限定其语义.以健康医疗领域为例,
术语“疾病”有时指一个概念,代表所有疾病的集合,有时指一个属性,代表某个疾病诱因关联的疾病;
“泌尿道感染”可能代表一种疾病,也可能是另一种疾病的诱因、风险因素或表现症状;“糖尿病”通常
指一个疾病实例,但“糖尿病”还可以细分为“1 型糖尿病”、“2 型糖尿病”、“妊娠糖尿病”等,这时“糖尿
病”又表示一些实例的集合,即代表一种疾病类型等.而在本体视图中,某个资源对象一旦建立,其 ID
就是唯一的,当然可以明确声明其与另一个资源对象在语义上是等价的或者完全不同的;
2) 在任何领域的知识描述中,都会涉及到对资源的某些量化指标的描述,例如人的身高、体重、血糖、
血压等.这些指标实际上是一个结构化的值,由数值和对应的单位构成,因为在不同的语境下(例如在
不同国家),对相同指标的描述其默认指称单位可能并不一样,即同一个属性存在不同方面的值.另外,
在任何领域都存在一些模糊和不确定的知识,例如医生对患者疾病的诊断或风险评估就是一种可能