Page 214 - 《软件学报》2024年第4期
P. 214
1792 软件学报 2024 年第 35 卷第 4 期
图, 挖掘主题关联关系, 然而挖掘的关联主题只是主题网状结构中的公共节点, 导致其主题词没有差异性, 且主题
层次隶属关系也不明确.
在共享主题分配方面, 研究者在主题模型的两层 DP (Dirichlet process) 结构中, 通过上层 DP 为下层若干 DP
过程提供共享的主题分布 [11] . 在抽取领域主题和主题词方面, 研究者通过领域信息改进主题模型中主题和主题词
分配机制, 明确领域主题的差异性 [12] .
本文将采用 nCRP 的主题层次构造原理实现主题层次自动构建. 然而, 在领域文本中使用基于 nCRP 的层次
主题模型构建主题树, 该主题树无法明确地描述主题的领域属性以及主题间的领域关联性, 也就无法明确关联子
主题的差异性. 主要原因包括, 首先, 主题树中同一层级的主题都是通过独立的 CRP (Chinese restaurant process, 中
国餐馆经营过程) 生成, 导致同一层级中不同分支主题下的子主题之间缺少关联性; 其次, 模型通过词语在所有文
档中的共现程度和出现频率确定词语的抽象程度, 进而构建主题的层次关系并抽取主题词, 导致不同层级的主题
之间缺少领域隶属性, 主题词也无法明确地描述不同层级主题的领域涵义.
针对以上问题, 本文将结合主题模型中共享主题分配和领域主题抽取的思路, 分别从主题层次构造、主题分
配、主题词选择和模型采样等方面改进基于 nCRP 的层次主题模型, 解决领域主题层次自动构建及其关联子主题
挖掘的问题.
本文的主要贡献如下.
(1) 在 nCRP 中引入共享主题分配机制, 提出 nCRP+构造方法, 改变主题树形结构的先验分布; 基于 nCRP+构
造方法和主题模型, 提出重分层的层次狄利克雷过程 (reallocated hierarchical Dirichlet processes, rHDP), 实现分层
级的主题统一分配和主题方面共享.
(2) 在 rHDP 层次主题模型中, 通过领域类别信息定义基于投票机制的领域隶属度计算方法, 构建主题 (或子
主题) 与领域 (或子领域) 之间的映射关系; 利用待分配词语与主题中已分配词语的语义相关性, 定义词语与领域
主题的语义相关度, 提升主题词刻画领域主题涵义的能力; 通过词语与其所在分支主题的领域相关性, 定义层次化
的主题-词语贡献度, 明确关联子主题中主题词的差异性. 因此, 本文的领域知识包括主题的领域信息、词语与主
题的语义信息以及主题词的领域关联信息.
(3) 基于领域知识改进 rHDP 层次主题模型采样和后验概率推导过程, 提出一种领域主题层次自动生成算法.
本文第 1 节介绍主题层次构造的相关研究进展, 并分析这些模型在领域主题关系构建和主题词抽取中存在的
问题. 第 2 节阐述 nCRP+层次构造方法和 rHDP 层次主题模型的基本思想. 第 3 节定义领域知识, 并提出结合领域
知识的层次主题模型. 第 4 节为实验结果分析. 最后总结全文, 并对未来值得关注的研究方向进行初步探讨.
1 相关工作
根据主题层次构建原理和领域主题抽取方法, 本节将从 3 个方面分析领域主题层次构建的相关工作, 包括基
于主题模型构建主题层次结构、基于机器学习方法构建主题层次结构和基于领域知识的主题模型或层次主题模型.
1.1 基于主题模型构建主题层次结构
为了明确主题层次结构、细化主题涵义, 研究者通过基于 HDP (hierarchical Dirichlet processes) [11] 主题模型和
[2]
基于嵌套 CRP (Chinese restaurant process) 的层次主题模型, 生成主题层次结构.
(1) 基于 HDP 的主题层次构建
Whye 等人 [11] 将 HDP 主题模型扩展成 3 层 DP 结构的主题模型, 构建领域文档的主题层次分布. 流式层次狄
利克雷过程 FHDP (flow HDP) [13] 通过在 HDP 中增加流动操作, 按主题生成的先后顺序定义主题的抽象程度和层
次隶属关系, 存在主题层次隶属关系不清晰的问题.
Ma 等人 [14] 通过在 HDP 模型中加入标签区分全局或局部主题, 以及全局或局部词语; Ding 等人则结合“亚主
题”和“层次映射”概念提出 nHDP (nested HDP) [15] 和 mnHDP (mapped nHDP) [16] 层次主题模型, 构建主题层次. 然而,
这类模型受限于主题层次扩展或主题方面共享.