Page 215 - 《软件学报》2024年第4期
P. 215
万常选 等: 主题方面共享的领域主题层次模型 1793
(2) 基于 nCRP 的层次主题模型
在构建主题树形结构方面, 研究者们采用 nCRP 构造方式生成主题层次的树形先验分布, 主题层次深度不受
限制, 再结合不同的主题模型构建层次主题模型.
Blei 等人在 LDA (latent Dirichlet allocation) 主题模型中引入 nCRP 过程, 为文档主题提供树形结构的先验分
布, 提出 hLDA (hierarchical LDA) 层次主题模型 [2] . 也有研究者研究 hLDA 模型的采样效率 [17−19] 和时变主题的层
次结构 [20] . 然而, 由于 hLDA 主题模型生成文档-主题分布只限定在树中某一分支, 模型无法全面地分析主题分布.
为了解决文档主题分布路径单一的问题, 研究者将主题共享的思想应用于主题树形结构的共享, 实现从主题
树分支中自由组合主题分布, 主题层次宽度也不受限制, 层次结构更加灵活 [21] .
nHDP (nested hierarchical Dirichlet processes) 层次主题模型 [3] 结合 nCRP 和 HDP 的思想, 为文档主题提供树
形结构的基分布. 在 nHDP 模型中, 每篇文档主题不再局限于树中一条分支路径上的节点, 而是来源于整棵树中若
干分支节点.
Ahmed 等人 [4] 把层次结构建模和文档建模分开, 通过改进的吉布斯采样方法, 提出 nCRF (nested Chinese
restaurant franchise) 构造过程, 实现主题层次结构共享. Huang 等人 [22] 利用 nCRP 和多层 HDP 实现 BHMC
(Bayesian hierarchical mixture clustering) 层次主题模型, 构建主题层次分布.
在实际应用中, 基于 nCRP 的层次主题模型在构建领域主题层次中存在以下问题: ① 主题与领域之间的映射
不准确, 导致主题无法明确地描述对应的领域涵义; ② 主题关系无法同时体现领域主题之间的层次关系以及同一
层级多个主题下主题方面的共享关系; ③ 生成的主题词既不能较好地描述父主题对其下子主题的概括性, 也不能
较好地体现关联子主题之间的领域差异性.
1.2 基于机器学习方法构建主题层次结构
除了主题模型和层次主题模型, 通过机器学习方法生成主题层次结构也是研究的热点. 一种普遍的方法是结
合矩阵分解的思想, 构建文档-主题和主题-词语分布. 研究者通过成对主题的关联矩阵构建 PAM (Pachinko
allocation model) 模型 [23,24] , 将子主题的父主题定义为子主题的先验分布, 使得主题分布中既包含词语也包含其他
主题, 构建主题层次关系. 研究者结合非负矩阵分解 (non-negative matrix factorization, NMF) [25,26] , 提出基于正交约
束的分层稀疏 NMF 主题模型, 构建主题层次.
在深度模型方面, 为了构建主题层次关系, 研究者通过多层伽马信念网络 (multi-layer Gamma belief network)、
泊松因子分析 (Poisson factor analysis, PFA) 和词向量提出 WEDTM (word embeddings deep topic model) 模型 [7] , 或
结合 Dirichlet 信念网 [8] 生成主题的先验分布, 构建主题的深层次表示; 为了构建主题关联关系, 研究者基于泊松因
子分析, 通过 Sigmoid 信念网 (Sigmoid belief network, SBN), 生成主题特征矩阵的深层表示, 为文档主题提供先验
分布, 生成主题的网状关联图 [10] , 其中包含了一些主题之间共同关联的主题, 但关联主题的主题词是没有差异的,
且主题的层次关系也不明确.
Isonuma 等人 [9] 基于自编码变分贝叶斯 (auto-encoding variational Bayes, AEVB), 构建主题的先验分布, 提出树
形结构的神经主题模型 TSNTM (tree structured neural topic model), 生成主题树形结构. 也有研究者通过在模型中
增加种子信息, 构建基于弱监督的、满足用户需求的主题层次构建模型 [5,6,27] .
然而, 以上研究存在如下问题: ① 主题与领域的对应关系不明确; ② 主要侧重于主题的层次关系构建, 忽略了
相同层级主题下子主题间的关联关系; ③ 关联主题是主题网状结构中的公共节点, 导致其主题词没有差异性, 主
题层次关系也不明确.
1.3 基于领域知识的主题模型/层次主题模型
为了抽取领域文本中的领域主题, Chen 等人 [28] 利用领域词语的频繁项集发现词语的不共现性, 以词语 cannot-link
集构建领域知识, 引导 LDA 主题模型中主题-主题词的分配过程. 在利用词语语义信息方面, 研究者在主题模型中
通过同义词 [29] 或词向量 [30] 明确词语之间的语义相似性, 以词语 must-link 集构建领域知识, 改进 LDA 主题模型,
使得语义相近的词语尽量分配在相同主题中, 提高主题词对领域主题的描述力.