Page 223 - 《软件学报》2024年第4期
P. 223
万常选 等: 主题方面共享的领域主题层次模型 1801
12. ELSE
k l
A 为餐桌分配已有菜肴;
13. 结合 j
14. END IF
15. ELSE
16. 为顾客分配已有餐桌;
17. END IF
18. END FOR
l
l
19. FOR 每张餐桌 t ∈ T DO
ji j
t l
20. 结合公式 (14) 和公式 (18) 计算餐桌 t 的菜肴分布参数, 索引为 k , 明确所有餐厅中餐桌的菜肴分布;
l
ji j
21. END FOR
t l
l k 生成第 l t l
22. 利用索引变量 t 和 j l 层分布参数 θ 和 φ ;
j
ji
ji
23. 按公式 (9) 计算主题-词语贡献度, 生成主题-词语分布;
24. l=l+1;
25. END FOR
26. END WHILE
在给定领域类别和领域代表性词语的前提下, 通过领域隶属度、词语与领域主题的语义相关度和层次化的主
题-词语贡献度, 描述领域知识对文档-主题 (或词语子集-主题) 和主题-词语概率分布影响, 结合算法 1, 本文给出
了一种领域主题层次自动挖掘的通用框架.
4 实验分析
实验将从 2 个方面比较模型对领域主题层次的挖掘效果: 首先, 通过主题模型常用的评价标准和模型挖掘的
主题在文本分类中的效果, 采用困惑度、复杂度、主题多样性和分类指标等 4 个评价指标进行定量评价; 然后, 通
过构建的主题层次模型抽取主题词, 对模型挖掘效果进行定性评价.
4.1 评价指标
(1) 困惑度
困惑度可用于度量概率模型预测样本好坏的能力, 这里通过困惑度评估层次主题模型的表现. 通过训练数据
集构建层次主题模型, 利用该模型生成测试数据集中每个数据的似然值, 通过这些似然值的对数定义困惑度
(perplexity, perp), 计算公式如式 (19) 所示. 困惑度越低说明层次主题模型的预测效果越好.
∑ ∑
1
l l l
perp = exp − log(phi(x |k )theta(k , j)) (19)
ji
|X test |
l∈L,k l ∈K l x l ∈X test ,x l ∈X k l ,j<|X test |
ji ji
l
l
t
其中, X tes 表示测试数据集, x 表示其中的一个词语, X k l 表示主题索引值为 k 的词语集, phi 和 theta 分别表示基
ji
于训练数据的层次主题模型生成测试数据第 l 层主题索引值为 k 的词语概率分布和文档 (或词语子集) j 的主题概
l
率分布, 通过 phi 和 theta 可以计算出测试数据集中每个词语的似然值.
(2) 复杂度
当主题模型的后验概率是通过 MCMC (Markov chain Monte Carlo) 采样方法推导生成时, 模型的复杂度
(complexity, comp) 被定义为层次主题模型每层级主题个数与所有文档中不同主题个数之和, 计算如公式 (20) 所
示. 复杂度越低说明层次主题模型效果越好.
∑ ∑∑
∑
t l
l
comp = |K |+ l (20)
j
I I(k = k ) > 0
l⩽L j∈J k l ∈K l t l ∈T l
j