Page 150 - 《软件学报》2025年第9期
P. 150

马杰 等: 基于相关性提示的知识图谱问答                                                            4061


                                                                                                n
                                                     e q q  对应的答案为
                 建. 对于一个给定问题       q, 其中包含的实体为  ,                   a, 则定义  (q,a)  在图谱  G  中对应的   个三元组
                                                                       “
                 [(s 1 ,r 1 ,o 1 ),...,(s n ,r n ,o n )] 中每个三元组  (s i ,r i ,o i ) 序列化后的文本  t pos i  = [s i ,r i ,o i ] ”为  q 对应的正样本, 其中  i 为下标,
                 表示第  i 个三元组. 可以得到,     q 对应的正样本集合          为:
                                                        Ω pos q
                                                        {(    )      }
                                                               |1 ⩽ i ⩽ n                             (6)
                                                       = q,t pos i
                                                   Ω pos q


                                                         cos (u, v)
                                              u                           v


                                            Pooling                     Pooling


                                           RoBERTa                     RoBERTa



                                        [黄铜, 熔点, 950 ℃]         黄铜和青铜的熔点哪一个更高?


                                       positive                  negative
                                          [黄铜, 熔点, 950 ℃]        [黄铜, 导热率, 92.8 W/(m·K)]
                                          [青铜, 熔点, 995 ℃]        [青铜, 比热容, 385.2 J/(kg·K)]
                                                                         ···
                                                                           采样
                                     一阶子图
                                                                         熔点
                                            膨胀                               995 ℃
                                       ···  系数     熔点  950 ℃
                                                                          切变
                                               黄铜                热导率 青铜  模量
                                                               ···
                                                   比热容
                                                       ···                  ···


                                                          知识谱图

                                                    图 3 相关性计算模块

                    在负样本构建时, 定义问题        q 中实体  e q  对应的一阶子图   G s  中非正样本的三元组均为负样本. 考虑到在子图             G s
                             q, 只有极少一部分的三元组为正样本, 因此, 在实际构建时, 对所有的负样本三元组进行采样, 最
                 中, 对给定问题
                 后得到  q 对应的负样本集合      Ω neg q  为:

                                                               (    )
                                                        = sample ∁ Ω pos q                            (7)
                                                    Ω neg q
                                                                 SubG e
                    最终通过利用正负样本对, 微调           m3e 模型 (https://huggingface.co/moka-ai/m3e-base), 实现相关性计算模块.
                 m3e 是一个基于    RoBERTa 的在中英文数据集上进行大规模训练的句子表示模型, 参考文献                      [47], 本文微调过程
                 的     loss 函数为:
                                                          (   (   )         )
                                                    ∑      cos u i ,u j −cos(u k ,u l )
                                             sim dis =  exp                                           (8)
                                                                   T
                                                   (i,j)∈Ω pos ,
                                                   (k,l)∈Ω neg
   145   146   147   148   149   150   151   152   153   154   155