Page 219 - 《软件学报》2024年第4期
P. 219

万常选 等: 主题方面共享的领域主题层次模型                                                          1797


                 对应词语子集, 餐桌中供应菜肴的菜肴类别对应财经文本的经济子领域属性, 即对应二级经济指标的子主题属性.
                  3.1   基于投票机制的领域隶属度
                    在图  1  中, 一个一级经济指标下会有若干个二级经济指标, 且不同的一级经济指标下存在相同的二级经济指
                 标, 反映多个一级经济指标        (主题) 下经济子领域      (子主题) 的交叉性. 对应在      nCRP+过程中, 通过每层     CRF  中统一
                 的菜肴分配过程, 餐厅的菜肴风格在不同餐厅中是共享的, 餐桌供应菜肴的菜肴类别在不同菜肴风格的餐厅中也
                 是共享的. 在给新餐桌分配菜肴之前, 餐厅的菜肴风格和餐桌供应菜肴的菜肴类别分别在上层                               CRF  和下层  CRF
                 分配过程中确定, 目的是对具有相同菜肴风格的餐厅分配菜肴风格, 并进一步对相同或不同菜肴风格的餐厅中对
                 菜肴类别有要求的餐桌分配菜肴的菜肴类别. 在领域文本中, 第                   1  层、第  2  层  CRF  中的餐厅分别对应领域文本的
                 词语集和重新划分主题后的词语子集, 通过在文档或词语子集的主题分配过程中共享领域划分信息, 分步明确文
                 档的领域和子领域属性, 解决领域分类信息引入和子主题的共享问题.
                    在领域主题层次生成过程中, 已知的领域类别及其对应的代表性词语集                         (简称领域词语集) 来源于专家定义.
                 在对文档或重新划分主题后的词语子集              (两者统称为词语集) 分配主题时, 首先, 通过计算词语集中每个词语与领
                 域词语集中词语的语义相关性, 明确词语集中每个词语的领域属性; 然后, 分析词语集中所有词语的领域分布情
                 况, 通过词语分布较多的领域类别明确该词语集的领域属性; 最后, 利用词语集的领域属性引导词语集的主题分配
                 过程, 使得同一层级的主题之间具有明显的领域特性. 基于这种思想, 本文提出一种基于投票机制的领域隶属度计
                 算方法, 计算流程如图      4  所示.

                                   领域词语集 S           词语对相似度矩阵
                                        ...  ...            ...   ...       词语-领域相似度矩阵
                               w 11 w 12  w 1k     b 1,11 b 1,12  b 1,1k                  索引向量
                        w 1
                                                                                           index 1
                        w 2
                     词
                     语         w n1  w n2  ...  w nk  ...  b 1,n1  b 1,n2  ...  b 1,nk  ...
                     集                                              max   join
                                             bert_sim                                           index W
                        …
                     W                                                                       …
                        w i             ...  ...            ...   ...
                               w 11 w 12  w 1k      b i,11 b i,12  b i,1k
                                                                                           index i
                                        ...  ...            ...   ...
                               w n1  w n2  w nk     b i,n1  b i,n2  b i,nk
                                                                                      max_index
                                            图 4 基于投票机制的领域隶属度计算流程

                    在图  4  中, 领域词语集记为     S, S n 表示第  n  个领域词语集, S n ={w nk |0≤n<|S|, 0≤k<|S n |}; 词语集记为  W, W={w i |0≤
                 i<|W|}; bert_sim(w i , w nk ) 表示词语对  w i 与  w n 之间的  BERT (bidirectional encoder representations from Transformers)
                                                   k
                 语义相似度, 记为     b i,nk ; 根据词语对相似度矩阵, max 函数为词语集中每个词语筛选出其在每个领域中的语义相似
                 度最大值, join  函数将所有词语在各个领域中的语义相似度最大值拼接成一个词语-领域相似度矩阵, 描述每个词
                 语与所有领域的相似度分布情况; max_index 函数为词语集中每个词语生成领域隶属索引值, 并为该词语集构建一
                 个索引向量, 其中     index i 表示  w i 的领域隶属索引值, 如公式   (5) 所示; 分析索引向量中领域的分布情况, 通过投票
                 的方式生成词语集的领域隶属索引值, 用             index W  表示词语集  W  的领域隶属索引值, 如公式       (6) 所示; 根据与词语
                 集  W  的领域类别相同的词语集个数, 定义词语集             W  隶属于该领域类别的程度, 即词语集           W  的领域隶属度, 记为
                 A W , 如公式  (7) 所示.
                                             index i = argmax( max (bert_sim(w i ,w k )))             (5)
                                                          0⩽k<|S n |
                                                     0⩽n<|S |
                                                       ∑
                                         index W = argmax  I(index i = index j ,index i = n)          (6)
                                                 0⩽n<|S |
                                                      0⩽j<|W|,i,j
                                                      ∑
                                                  A W =  I(index W = index W ′)                       (7)
                                                      W ′ ,W
                    因此, 通过公式    (7) 可以明确文档或重新划分主题后的词语子集的领域隶属度, 改进每层级文档                        (或词语子集)-
                 主题的分配过程.
   214   215   216   217   218   219   220   221   222   223   224