Page 196 - 《软件学报》2020年第10期
P. 196
3172 Journal of Software 软件学报 Vol.31, No.10, October 2020
和实例数据 I medicine .Freebase RDF dump 包中没有领域语义规则集的定义.
5) 数据后处理.包括两个方面,一方面,在 Freebase RDF dump 中,不区分数据类型属性和对象属性,为此需
要对其进行处理;另一方面,在 Freebase RDF dump 中,所有主题域的名称空间相同,为此,需要结合领域需求对其
进行替换.
6) 数据集成和处理.包括 3 个方面:(a) 将后处理后的 O medicine 和 I medicine 整合为 SKB medicine ;(b) 将采用
MID(machine identifier)标识的类和属性表示为人类可读的 ID,在 Freebase 中,所有类和属性既有唯一的 MID,
也有唯一的人类可读的 ID,而所有实例只有唯一的 MID,其人类可识别的标识通过标注属性 rdfs:label 进行描
述;(c) 将 SKB medicine 转换为本体标准语言描述的格式.Freebase RDF dump 包虽然采用 RDF 来进行描述,但其中
的某些语义描述组件并未采用本体标准描述语言定义的语义组件,而是采用了 Freebase 实现域中的一些语义
组件.例如,字面值的类型采用了 Freebase type 域中的类型定义,还有一些标注属性使用了 Freebase common 域中
的属性定义等.所以还需要将抽取的结果转换为本体标准语言描述的形式,以利用通用的语义 Web 工具对其进行
处理.
由于本文讨论的疾病辅助诊断只依赖 medicine 主题域中的疾病、症状实例及其语义关系,所以最后由医学
专家对这部分知识内容进行了校对和进一步的完善.图 1 所示为使用本体编辑工具 Protégé [53] 打开的、最终得
到的 medicine 领域语义知识库 SKB medicine ,其规模说明如下.
1) 以 Turtle 格式表示的 medicine 领域语义知识库的文件(扩展名为.ttl)大小为 1.6GB,装载到 TDB 中以后,
占用的文件系统存储空间大小为 1.3GB(比原始文件还要小).
2) 知识库中包含 70 个概念、63 个数据类型属性、156 个对象属性、886 272 个实例和 7 073 580 个三元组.
3) 疾病实例有 7 367 个(不含同义实例),其中,3 590 个疾病实例包含了合计 3 802 个同义实例,这些同义实
例被归一化到(通过 owl:sameAs 语义组件)其对应的标准疾病实例(下文所指疾病实例均指标准疾病实例)中.
Fig.1 The domain semantic knowledge base in medicine
图 1 Medicine 领域的语义知识库
4) 症状实例有 1 444 个(不含同义实例),其中,1 112 个症状实例包含了合计 1 352 个同义症状,它们也被归