Page 220 - 《软件学报》2024年第4期
P. 220
1798 软件学报 2024 年第 35 卷第 4 期
3.2 词语与领域主题的语义相关度
在各层 CRF 顾客-餐桌分配过程中, 通过分析顾客之间对餐厅分配的菜肴风格或餐桌分配菜肴的菜肴类别要
求的一致程度, 将要求相近的顾客分配在一起, 即将隶属于相同领域或子领域范畴的词语分配在相同的主题中, 改
善同一领域词语的聚类效果. 本节通过词语的语义信息描述顾客之间对餐厅分配的菜肴风格或餐桌分配菜肴的菜
肴类别要求的一致程度, 结合文献 [12], 定义词语与领域主题 (或词语与领域子主题) 的语义相关度. 通过统计待分
配主题的词语 w i 在主题 k 中语义相似的词语个数, 定义词语 w i 与主题 k 的语义相关度, 记为 A(w i ,k) , 如公式 (8)
k
所示. 其中, bert_sim 表示词语之间的 BERT 语义相似度, ξ 表示语义相似度的阈值, X 表示主题 k 的词语集.
{ }
k
(8)
A(w i ,k) = w m bert_sim(w i ,w m ) ⩾ ξ ,w m ∈ X ,w m , w i
3.3 层次化的主题-词语贡献度
在明确了主题领域属性、词语与主题的语义相关性的基础上, 需要进一步明确每层主题中主题词的领域代表
性. 在构建领域主题层次时, 需要根据领域主题的层次关系和关联关系, 结合词语所在的层级和分支, 抽取每层级
领域主题对应的主题词. 对应 nCRP+层次构造过程中, 需要精确区分顾客群体, 即根据顾客对餐厅菜肴风格和餐
桌供应菜肴的菜肴类别的要求对顾客进行细分, 体现顾客对特定菜肴风格下特定菜肴类别的菜肴的“专一性”. 因
此, 在每层主题-词语的分配过程中, 通过分析词语对各层级主题的代表性, 改进词语在主题中的分配概率, 定义层
次化的主题-词语贡献度, 抽取符合各层领域主题涵义的主题词.
将刻画经济主题或子主题涵义的主题词称为经济要素词, 这些词语将通过层次主题模型从财经文本中自动抽
取. 根节点对应主题树的第 0 层节点, 其主题是对所有财经文档的概括, 所以根节点主题中词语的贡献度由词语在
第 1 层经济主题 (即一级经济指标) 中的出现概率和出现频次定义. 第 1 层节点主题是对其下所有词语子集的概
括, 所以第 1 层节点主题中词语的贡献度由词语在第 2 层经济主题 (即二级经济指标) 中的出现概率和出现频次
定义. 这里第 2 层经济主题是第 1 层经济主题下的经济子主题, 对应主题树中的第 2 层节点, 该层节点主题需要明
确不同一级经济指标下相同二级经济指标的涵义. 所以, 第 2 层节点主题中词语的贡献度由词语与其所在分支中
各级经济主题的关联关系共同定义. 通过逐层地计算词语在主题中的贡献度, 将能同时描述同一分支路径中经济
主题和子主题的词语分配在对应的主题中, 提高经济要素词在关联子主题中的区分度.
1
通过在符号右上角加数字表示该符号所描述的层级, 定义层次化的主题-词语贡献度. phi(w i , k ) 定义为词语
1
1
1
w i 在第 1 层主题 k 中出现的概率, stat(w i , k ) 定义为词语 w i 在第 1 层主题 k 中出现的次数; 将词语 w i 在第 2 层
主题 k 中的逆主题频率记为 itf 2 , 结合 phi(w i , k ) 描述词语 w i 对第 2 层主题 k 的代表性; 通过公式 (5) 中 bert_sim
2
2
2
w i
函数计算 w i 与其所在分支中第 1 层节点主题 k 中所有词语的语义相似值, 并用其平均值表示词语 w i 与主题 k 1
1
1
1
的语义相似值, 记为 bert_sim(w i , k ), 用于描述词语 w i 与第 1 层主题 k 的语义关系, 通过参数 λ 调节词语与其所在
分支中第 1、2 层主题的相关性. 因此, 主题树中层次化的主题-词语贡献度记为 C(w i , k ), 计算公式如公式 (9) 所示.
l
1
phi(w i ,k )× stat(w i ,k ), l = 0
1
2
2
l phi(w i ,k )× stat(w i ,k ), l = 1
C(w i ,k ) = (9)
( )
2 2 1
λ× phi(w i ,k )×itf +(1−λ)×bert_sim(w i ,k ), l = 2
w i
3.4 结合领域知识的层次主题模型参数概率分布
本节介绍如何通过领域隶属度、词语与领域主题的语义相关度和层次化的主题-词语贡献度改进 rHDP 层次
主题模型中不同层级的参数概率分布. 在第 l 层 CRF 过程中, 餐厅 j 对应财经文本的词语集或重新划分主题后的
词语子集. 结合公式 (8), 当新顾客分配餐桌时, 新顾客 x 被分配到已有餐桌的概率与该餐桌中已有顾客和新顾客
l
ji
l
t l
l t l k 表示餐桌 t 所在
之间对餐厅分配的菜肴风格或餐桌分配菜肴的菜肴类别要求的一致程度 A(x ,k ) 成正比, 其中 j
j
ji
l
餐厅的菜肴风格或所分配菜肴的菜肴类别; 被分配到新餐桌的概率与超参数 α 成正比, 第 l 层 CRF 的顾客-餐桌
分配过程的参数如公式 (10) 所示.
l
t l
l φ , 且餐桌编号为 t ; 也可以选择新餐桌就
因此, 新顾客可以选择与其要求一致程度较高的餐桌就座, θ 对应 j
ji