Page 268 - 《软件学报》2025年第12期
P. 268

杨建喜 等: 多语义视图驱动的        OWL  知识图谱表示学习方法                                          5649


                 联合认知思想, 提出面向语义模式层和实例层语义信息联动的多语义视图划分策略, 分别将映射生成的                                 RDF  图进
                 一步解析为类层级关系视图、类属性关系视图、类实例关系视图、实例对象属性视图和实例数据属性视图, 用以
                 表示概念、实例及多类型属性的多维度语义关联.
                    在语义感知进阶训练阶段, 首先对上一阶段生成的                 5  种类型语义视图分别采用随机游走策略构建进阶训练数
                 据, 实现从图结构数据向序列化的三元组文本转换. 然后, 为进一步引入概念、实例和各类型属性的标注文本描述
                 信息, 设计了标注属性替换策略, 用于进一步丰富三元组序列数据的上下文语义信息. 最后, 根据所采用的                                PLM
                 或  LLM  模型基座, 根据生成的三元组序列特性设计掩码策略, 并进行自监督的模型进阶训练, 使得基座模型更适
                 配于所构建的多语义视图上下文.
                    在多任务联合表示学习阶段, 采用映射生成的多语义视图三元组集合为数据基础, 将其输入进阶训练后的                                 PLM
                 或  LLM  模型, 获取头尾实体嵌入和关系嵌入, 拼接后通过类层级关系预测、类属性预测、类实例预测、实例对象
                 属性预测以及实例数据属性预测展开多任务联合表示学习, 采用联合损失度量进行模型参数优化, 构建适配于多
                 语义视图输入与多任务学习输出的端到端模型, 并获取概念-属性-实例联合感知的知识嵌入.
                    接下来, 将在第     2.3、2.4  和  2.5  节中详细介绍  MSV-KRL  中各阶段的核心方法.
                  2.3   概念-属性-实例多视图语义划分
                    为了实现在多语义视图中有效表征            OWL  语义图谱概念、实例及其对象属性、数据属性等复杂语义信息, MSV-
                 KRL  根据  OWL  本体语义模式特性, 包含了复杂语义本体映射和多语义视图划分两个子任务.
                  2.3.1    OWL  本体到  RDF  图结构的语义映射优化
                    本文采用的本体映射方法总体上与             OWL2Vec*、Soylu  等人  [58] 和  Holter 等人  [59] 的方法相似, 如表  1  所示. 给
                 定  OWL  语义描述的条件     1  公理及条件   2  公理, 将其映射为对应的       RDF  三元组形式. 例如, OWL    实例断言声明
                                                          −       A 是原子概念,                       r, 同时声
                 A(a) 可映射生成三元组     ⟨a,rdf : type,A⟩ 和   ⟨A,rdf : type ,a⟩, 其中   a 是实例. 对于对象属性
                 明有定义域    (domain) 为  A, 值域  (range) 为   B, 那么可映射为三元组  ⟨A,r,B⟩. 另外, 表  1  中还指出了概念和属性的
                 语义层级、量词约束等语义公理的映射规则.

                                                     表 1 本体映射规则

                          条件1公理                         条件2公理                        映射的三元组
                       A ⊑ □r.D or  □r.D ⊑ A     D ≡ B|B 1 ⊔...⊔ B n |B 1 ⊓...⊓ B n
                          r domain:  A                  r range:  B
                           A ⊑ □r.{b}                     B(b)
                                                                                       ⟨A,r,B⟩ or
                                                         ′
                            r ⊑ r ′                   ⟨A,r ,B⟩ in graph             ⟨A,r,B i ⟩ for  i ∈ 1,...,n
                            ′
                            r ≡ r  −                  ⟨B,r ,A⟩ in graph
                                                         ′
                         s 1 ◦...◦ s n ⊑ r       ⟨A, s 1 ,C 1 ⟩...⟨C n , s n ,B⟩ in graph
                                                           -                      ⟨B,rdfs : subClassOf,A⟩
                            B ⊑ A
                                                           -                      ⟨A,rdfs : subClassOf ,B⟩
                                                                                               −
                                                           -                         ⟨a,rd f : type,A⟩
                             A(a)
                                                                                             −
                                                           -                         ⟨A,rdf : type ,a⟩
                            r(a,b)                         -                            ⟨a,r,b⟩
                                                                           ′
                 注:  □  是  ⩾、 ⩽、 =、 ∃ 及  ∀ 其中之一;  A、 B、  B i  和  C i  表示原子概念 (类);  、  和  r  表示角色 (对象属性),  r −   是  r 的逆关系;  a
                                                                       r
                                                                    s i
                 和  b 是个体 (实例)

                    然而, 表  1  所示的本体映射规则仅能处理对象属性相应定义域和值域的原子概念语义映射, 对多原子概念交
                                                                 rdfs : domain 是由多个原子概念通过交或并连接定
                 并等复杂语义的解析映射能力不足, 尤其是当某一对象属性的
                 义而成, 而  rdfs : range 是单个原子概念构成的情况, 就无法实现语义映射和三元组生成. 另外, 在处理数据属性的
                 值域映射时, 其三元组宾语处的字面量尚未关联对应的数据类型信息, 存在一定的语义映射缺失问题. 因此, 本文
                 在表  1  的映射规则基础上进行扩展, 分别针对对象属性定义域、值域复杂概念语义映射和数据属性值域字面量数
                 据类型映射问题进行优化. 算法         1  描述了针对对象属性定义域和值域复杂语义的映射优化算法.
   263   264   265   266   267   268   269   270   271   272   273