Page 244 - 《软件学报》2020年第9期
P. 244
陈德彦 等:专家视图与本体视图的语义映射方法 2865
使用米(m)和公斤(kg),而在英国,计量人的身高、体重的单位分别为英寸(inch)和磅(pounds).一些领域专家在建
模领域知识时,会假定领域知识的使用区域或使用者,确信使用此领域知识的使用者会正确推断出默认的计量
单位,从而在表示领域知识时常常省略计量单位,如图 5(a)所示.但在将专家视图映射为本体视图并应用到语义
Web 中时,这种假定是不成立的,所以必须对计量单位或类似的信息进行明确表述.
pp:people.diagno _:diagnosis_rela pp:people.dia
结节病 “0.7”^^xsd:decimal med:m.01q5y6
sis.probability tion12227 gnosis.value
pp:people.perso rdfs:label
可能性70% n.has_diagnosis
rdfs:label
“张三”@zh “结节病”@zh
张三 ps:p0001
pp:people.person pp:people.person.
身高 体重 .height weight
_:height10338 mm:meter mm:kilograms _:weight10245
1.75 65 pp:people.person. pp:people.person.
height_unit weight_unit
rdf:value rdf:type rdf:value
rdf:type
mm:measureme mm:measureme
“1.75”^^xsd:decimal nt_unit.length_u nt_unit.mass_un “65”^^xsd:integer
nit it
(a) 专家视图 (b) 本体视图
Fig.5 Semantic mapping of structured values and uncertain relations
图 5 结构化值和不确定关系的语义映射
另外,在任何领域的知识描述中都存在一些模糊和不确定的知识,例如医生对患者疾病的诊断就是一种可
能性的判断,这种可能性的判断依赖患者主诉的症状、体征、检查、化验、医生经验等.医生在给出诊断结果
时,并不能给出这种可能性的大小.健康医疗大数据的出现,一些基于数据挖掘、机器学习等方法构造的针对单
病种或者专病的疾病辅助诊断模型,不但可以提供比单个医生(基于大数据的疾病辅助诊断模型综合了更多医
生的经验知识)更高的疾病检出率,而且还能提供鉴别诊断,给出数值化的患病可能性参考值.本文不探讨各种
模糊性和不确定知识的建模方法,而是给出这种数值化关系的语义描述方法.
在本体视图中,为了描述张三的身高及度量单位,可以在描述身高的属性的 ID 中附上度量单位,比如
pp:people.person.height(m),或者在属性的标注属性(rdfs:label,rdfs:comment 等)中注明使用的计量单位,或者将
身高属性的值表示为字符串,在字符串中同时表达身高的数值和单位,例如“1.75m”.对于描述张三与疾病诊断
关系的概率值也可以采用类似的方法.这些描述方式对人是可理解的,但却不是机器可处理的;而且对于不同的
度量单位和关系权重(例如描述张三患某种疾病的风险等级),需要分别处理,可扩展性差.
描述身高的数值和单位组成了一个结构(structure),要描述张三和这个结构的关系,就要涉及到处理一个 N
元(n-ary)关系 [24] .在这里 N 为 3,分别是张三、身高数值和身高单位.要描述张三与诊断关系的概率值,需要一个
附加的属性用于描述这个关系的概率,同样构成了一个 N 元关系.而 RDF 只能表示二元(binary)关系,为此作出
如下的建模约定:
约定 6. 对于专家视图中明确描述或隐含的结构化值,在本体视图中引入 N 元关系来进行明确表示;使用空
节点(blank nodes) [4,10] 或有名资源(具有 URIrefs)表示 N 元关系:对于每一个 N 元关系,将其切分为一元(作为这
个 N 元关系的主体,比如张三)和 N-1 元(比如身高值和计量单位),并创建一个空节点或有名资源及其相关属性
来进行连接(即描述).如果 N-1 元中仍然存在多元关系,可采用相同的方法进行切分和描述.
如图 5(b)所示,分别建立了描述人和描述度量单位的本体 O people 和 O measurement_unit ,这两个本体定义中的资源
ID 对应的名称空间前缀分别为 pp 和 mm.然后定义了一个 I zhangsan (名称空间为 ps),基于 O people ,O measurement_unit 和
O domain 来描述个体张三.图中创建了 3 个空节点,分别用于描述张三的身高、体重和诊断结果.这里并没有为空
节点分配 URIrefs,但表达了它应该表达的含义即提供了图中各个部分之间必需的连通作用.这个空节点本身可