Page 229 - 《软件学报》2024年第4期

P. 229

万常选等: 主题方面共享的领域主题层次模型 1807

要好于层次化主题-词语贡献度; rHDP_DK 模型的困惑度总体上低于其他 4 个模型, 说明同时在每层级文档-主题
和主题-词语分配过程中添加领域知识的引导, 可以较好地改善层次主题模型的整体预测力.
从图 9 可看出, rHDP_1、rHDP_2、rHDP_3 和 rHDP_DK 模型的复杂度均低于 rHDP 模型, 说明增加领域隶
属度、词语与主题的语义相关度和层次化主题-词语贡献度可以改善模型的复杂度. 其中, rHDP_1、rHDP_2 模型
的复杂度低于 rHDP_3 模型, 说明领域隶属度和词语与主题的语义相关度对改善模型复杂度的效果要好于层次化
主题-词语贡献度; rHDP_DK 模型的复杂度低于其他 4 个模型, 说明通过领域知识改进各层级文档-主题和主题-词
语分配过程可以较好地降低层次主题模型的复杂度.
5 个层次主题模型在 2 个数据集中高层级 (l≤1) 节点的 (子) 主题多样性如图 10(a) 和图 10(b) 所示. 其中,
rHDP_1、rHDP_2、rHDP_3 和 rHDP_DK 层次主题模型在财经微博文本数据集中生成的第 1 层节点数分别是 7、
9、8 和 7, 因此 4 个模型中第 1 层节点的编号取值范围分别为 [2, 8]、[2, 10]、[2, 9] 和 [2, 8]; 这 4 个层次主题模
型在 20NewsGroup 数据集中生成的第 1 层节点数分别是 15、17、16 和 14, 因此各模型中第 1 层节点的节点编号
取值范围分别为 [2, 16]、[2, 18]、[2, 17] 和 [2, 15].

2.0
1.7 2.2
mean_KL 1.4 mean_KL 1.8
1.4
1.1
0.8 1.0
0.5 0.6
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
父主题节点编号父主题节点编号
(a) 财经微博文本 (b) 20NewsGroup
rHDP rHDP_1 rHDP_2 rHDP_3 rHDP_DK
图 10 层次主题模型的主题多样性

从图 10 可看出, rHDP_3 模型的 mean_KL 值比 rHDP 模型整体上要高一些, 说明增加词语在主题中的贡献度
可以明确词语对主题的代表性, 进而明确了子主题在领域涵义方面的差异性, 改善了子主题的多样性. 相较于
rHDP_3 模型, rHDP_1、rHDP_2 模型的 mean_KL 值高一些, 说明主题的领域特性和词语的语义信息在改善子主
题多样性方面具有更好的效果. 主要原因是: 一方面, 在层次主题模型中引入领域 (或子领域) 类别特性, 对应于菜
肴风格 (或菜肴类别) 概念, 并通过领域 (或子领域) 类别改进各层级文档-主题分配过程, 实现将主题 (或子主题)
涵义映射到领域 (或子领域) 类别, 明确的领域 (或子领域) 类别信息将丰富主题 (或子主题) 的领域涵义; 另一方
面, 在分层次的主题共享机制下通过词语与主题的语义信息改进主题词的聚类过程, 明确主题涵义, 进而改善主题
下子主题的多样性. 在 5 个层次主题模型中, rHDP_DK 模型在子主题多样性方面表现最好, 说明在考虑了 3 方面
领域知识之后, 不仅从全局上明确了主题的领域涵义, 而且从局部上明确了词语在主题中的代表性, 凸显了关联子
主题之间的领域差异性, 间接提高了主题多样性.
5 个层次主题模型在 graphics 和 crypt 中的分类结果, 如表 4 所示.

表 4 层次主题模型的分类指标值

graphics crypt
模型
P R F1 P R F1
rHDP 0.850 2 0.864 2 0.857 1 0.944 2 0.955 6 0.949 9
rHDP_1 0.874 0 0.884 8 0.879 3 0.952 2 0.963 7 0.957 9
rHDP_2 0.869 9 0.880 7 0.875 3 0.955 5 0.951 6 0.953 5
rHDP_3 0.878 5 0.893 0 0.885 7 0.967 6 0.963 7 0.965 7
rHDP_DK 0.887 1 0.905 3 0.896 1 0.979 7 0.971 8 0.975 7

224 225 226 227 228 229 230 231 232 233 234