Page 228 - 《软件学报》2024年第4期
P. 228
1806 软件学报 2024 年第 35 卷第 4 期
率, 作为分类器的特征向量. 限于篇幅, 实验中只给出了 graphics 和 crypt 类别的分类结果, 如表 3 所示.
从表 3 可发现, rHDP 模型的分类指标值总体上均高于 hLDA、nHDP、TSNTM 和 WEDTM 模型, 主要原因
是 rHDP 模型通过分层次的主题共享生成主题分布, 拓宽了每个领域下子领域的范围, 模型将使用更加丰富的主
题特征, 提高文档类别预测的效果. 其中, nHDP 模型的 R 值比 rHDP 模型高, 说明多分支的主题分布可以明确更
多文档的类别.
表 3 对比模型的分类指标值
graphics crypt
模型
P R F1 P R F1
hLDA 0.776 1 0.827 2 0.800 8 0.910 2 0.939 5 0.924 6
nHDP 0.802 3 0.868 3 0.834 0 0.933 6 0.963 7 0.948 4
TSNTM 0.829 4 0.860 1 0.844 4 0.939 3 0.935 5 0.937 4
WEDTM 0.832 2 0.862 1 0.846 9 0.940 3 0.947 8 0.944 0
rHDP 0.850 2 0.864 2 0.857 1 0.944 2 0.955 6 0.949 9
4.5 领域知识实验结果与分析
领域知识实验结果分析包括 rHDP 模型及其 4 个改进模型在 2 个数据集和各评价指标上的定量分析, 以及
rHDP_DK 模型生成的领域主题中主题词分布的定性分析.
(1) 定量分析
模型的定量评价指标包括困惑度、复杂度、主题多样性和分类指标, 其中 5 个层次主题模型在 2 个数据集的
困惑度和复杂度分别如图 8 和图 9 所示.
900
1 800
850
perp 1 400 perp 800
750
1 000
700
600 650
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
交叉验证次数 交叉验证次数
(a) 财经微博文本 (b) 20NewsGroup
rHDP rHDP_1 rHDP_2 rHDP_3 rHDP_DK
图 8 层次主题模型的困惑度
8 000
1 400
6 000
comp 4 000 comp 1 100
2 000 800
0 500
1 6 11 16 21 26 31 36 41 1 6 11 16 21 26 31
迭代次数 迭代次数
(a) 财经微博文本 (b) 20NewsGroup
rHDP rHDP_1 rHDP_2 rHDP_3 rHDP_DK
图 9 层次主题模型的复杂度
从图 8 可看出, rHDP_1、rHDP_2、rHDP_3 和 rHDP_DK 模型的困惑度总体上低于 rHDP 模型, 说明增加领
域隶属度、词语与主题的语义相关度、层次化主题-词语贡献度可以改善模型在数据预测方面的效果. 其中,
rHDP_1 和 rHDP_2 模型的困惑度低于 rHDP_3 模型, 说明领域隶属度和语义信息在模型的数据预测方面的效果