Page 226 - 《软件学报》2024年第4期
P. 226
1804 软件学报 2024 年第 35 卷第 4 期
阈值 ξ 分别设置为 0.3 和 0.4.
为了提高 rHDP_1 和 rHDP_DK 层次主题模型中各层次领域隶属度的计算效率, 在计算词语的领域隶属索引
值时, 只对文档中出现次数在上述规定范围内的词语计算基于 BERT 的语义相似度. 因此, 在计算文档 (或词语子
集) 的领域隶属索引值时, 如果文档 (或词语子集) 中只包含高频词或超低频词, 该文档 (或词语子集) 的领域隶属
索引值将设为二级领域数量+1, 区别于已有的领域 (或子领域) 类别索引值.
在 rHDP_3 和 rHDP_DK 层次主题模型中, 层次化的主题-词语贡献度不仅反映了每层级词语对领域主题的代
表性, 而且体现了关联子主题中主题词的差异性. 根节点和第 1 层主题中词语的代表性主要体现为对领域和子领
域的概括性, 计算过程中通过词语在对应主题中的概率值及其词语集中的频次共同决定. 第 2 层主题中词语的代
表性需要同时反映该词语所在分支中的领域主题和子主题的涵义, 凸显关联子主题的差异性. 因此, 在生成领域子
主题的主题词时综合了两个方面的代表性, 一方面通过词语与该领域子主题的逆主题频率和其在主题中的概率
值, 描述词语对领域子主题的代表性; 另一方面, 通过词语与其所在分支领域主题的语义相关性描述词语对领域主
题的代表性; 参数 λ 为这两部分的权值. 为了凸显关联子主题在主题词方面的差异性, 第 2 层主题中的主题词需更
侧重其对子主题涵义的描述, 在设置词语对领域子主题的代表性和词语与领域主题的语义相关性之间的比例时,
前者的权值更大. 通过分析和调试主题中词语的贡献度变化情况, 将 λ 值设置为 0.6. 对于困惑度的计算, 实验中训
练数据集和测试数据集的设置统一参照文献 [9].
实验采用的分类模型是逻辑回归分类器. 由于 20NewsGroup 数据集中每篇文档都有子领域划分, 因此实验中
基于这些子领域划分进行文档类别标注, 共分为 15 个类别. 按照 3:1 的比例将每个类别的文档集分成训练数据集
和测试数据集. 利用模型生成的文档-主题概率分布对文档进行特征描述, 作为分类器的输入向量.
4.4 对比实验结果与分析
对比实验结果分析包括前 5 个对比模型在 2 个数据集和各评价指标上的定量分析.
(1) 困惑度
5 个对比模型在 2 个数据集的困惑度如图 5(a) 和图 5(b) 所示.
1 300
hLDA nHDP TSNTM hLDA nHDP TSNTM
WEDTM rHDP WEDTM rHDP
2 000 1 100
perp perp
1 400 900
800 700
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
交叉验证次数 交叉验证次数
(a) 财经微博文本 (b) 20NewsGroup
图 5 对比模型的困惑度
在图 5 中, 横坐标表示十折交叉验证方法中的验证次数, 纵坐标表示每次验证生成的困惑度. 从图 5 可看出,
rHDP 层次主题模型的困惑度总体上低于 hLDA 和 nHDP 模型, 说明基于 nCRP+的层次主题模型的预测能力比基
于 nCRP 的层次主题模型要好一些; rHDP 层次主题模型的困惑度也总体上低于 TSNTM 和 WEDTM 模型, 说明
基于 nCRP+的层次主题模型在预测方面比基于神经网络的构造模型要好一些. 导致 rHDP 层次主题模型困惑度较
低的主要原因是, 通过分层主题方面共享, 模型能更好地明确领域文档和关联子主题中词语的主题属性, 进而提高
词语的生成概率, 降低词语的不确定程度.
(2) 复杂度
由于 nHDP 层次主题模型的采样方法是变分推导, TSNTM 模型采用变分自动编码方法, 本文的复杂度以
MCMC 采样方法为计算依据, 所以, nHDP 和 TSNTM 模型不参与模型复杂度比较. 其他 3 个模型在 2 个数据集的
复杂度如图 6(a) 和图 6(b) 所示, 横坐标表示模型的迭代次数, 纵坐标表示每次迭代模型的复杂度. 由于第 1 层、