Page 219 - 《软件学报》2024年第4期
P. 219
万常选 等: 主题方面共享的领域主题层次模型 1797
对应词语子集, 餐桌中供应菜肴的菜肴类别对应财经文本的经济子领域属性, 即对应二级经济指标的子主题属性.
3.1 基于投票机制的领域隶属度
在图 1 中, 一个一级经济指标下会有若干个二级经济指标, 且不同的一级经济指标下存在相同的二级经济指
标, 反映多个一级经济指标 (主题) 下经济子领域 (子主题) 的交叉性. 对应在 nCRP+过程中, 通过每层 CRF 中统一
的菜肴分配过程, 餐厅的菜肴风格在不同餐厅中是共享的, 餐桌供应菜肴的菜肴类别在不同菜肴风格的餐厅中也
是共享的. 在给新餐桌分配菜肴之前, 餐厅的菜肴风格和餐桌供应菜肴的菜肴类别分别在上层 CRF 和下层 CRF
分配过程中确定, 目的是对具有相同菜肴风格的餐厅分配菜肴风格, 并进一步对相同或不同菜肴风格的餐厅中对
菜肴类别有要求的餐桌分配菜肴的菜肴类别. 在领域文本中, 第 1 层、第 2 层 CRF 中的餐厅分别对应领域文本的
词语集和重新划分主题后的词语子集, 通过在文档或词语子集的主题分配过程中共享领域划分信息, 分步明确文
档的领域和子领域属性, 解决领域分类信息引入和子主题的共享问题.
在领域主题层次生成过程中, 已知的领域类别及其对应的代表性词语集 (简称领域词语集) 来源于专家定义.
在对文档或重新划分主题后的词语子集 (两者统称为词语集) 分配主题时, 首先, 通过计算词语集中每个词语与领
域词语集中词语的语义相关性, 明确词语集中每个词语的领域属性; 然后, 分析词语集中所有词语的领域分布情
况, 通过词语分布较多的领域类别明确该词语集的领域属性; 最后, 利用词语集的领域属性引导词语集的主题分配
过程, 使得同一层级的主题之间具有明显的领域特性. 基于这种思想, 本文提出一种基于投票机制的领域隶属度计
算方法, 计算流程如图 4 所示.
领域词语集 S 词语对相似度矩阵
... ... ... ... 词语-领域相似度矩阵
w 11 w 12 w 1k b 1,11 b 1,12 b 1,1k 索引向量
w 1
index 1
w 2
词
语 w n1 w n2 ... w nk ... b 1,n1 b 1,n2 ... b 1,nk ...
集 max join
bert_sim index W
…
W …
w i ... ... ... ...
w 11 w 12 w 1k b i,11 b i,12 b i,1k
index i
... ... ... ...
w n1 w n2 w nk b i,n1 b i,n2 b i,nk
max_index
图 4 基于投票机制的领域隶属度计算流程
在图 4 中, 领域词语集记为 S, S n 表示第 n 个领域词语集, S n ={w nk |0≤n<|S|, 0≤k<|S n |}; 词语集记为 W, W={w i |0≤
i<|W|}; bert_sim(w i , w nk ) 表示词语对 w i 与 w n 之间的 BERT (bidirectional encoder representations from Transformers)
k
语义相似度, 记为 b i,nk ; 根据词语对相似度矩阵, max 函数为词语集中每个词语筛选出其在每个领域中的语义相似
度最大值, join 函数将所有词语在各个领域中的语义相似度最大值拼接成一个词语-领域相似度矩阵, 描述每个词
语与所有领域的相似度分布情况; max_index 函数为词语集中每个词语生成领域隶属索引值, 并为该词语集构建一
个索引向量, 其中 index i 表示 w i 的领域隶属索引值, 如公式 (5) 所示; 分析索引向量中领域的分布情况, 通过投票
的方式生成词语集的领域隶属索引值, 用 index W 表示词语集 W 的领域隶属索引值, 如公式 (6) 所示; 根据与词语
集 W 的领域类别相同的词语集个数, 定义词语集 W 隶属于该领域类别的程度, 即词语集 W 的领域隶属度, 记为
A W , 如公式 (7) 所示.
index i = argmax( max (bert_sim(w i ,w k ))) (5)
0⩽k<|S n |
0⩽n<|S |
∑
index W = argmax I(index i = index j ,index i = n) (6)
0⩽n<|S |
0⩽j<|W|,i,j
∑
A W = I(index W = index W ′) (7)
W ′ ,W
因此, 通过公式 (7) 可以明确文档或重新划分主题后的词语子集的领域隶属度, 改进每层级文档 (或词语子集)-
主题的分配过程.