Page 215 - 《软件学报》2024年第4期
P. 215

万常选 等: 主题方面共享的领域主题层次模型                                                          1793


                    (2) 基于  nCRP  的层次主题模型
                    在构建主题树形结构方面, 研究者们采用              nCRP  构造方式生成主题层次的树形先验分布, 主题层次深度不受
                 限制, 再结合不同的主题模型构建层次主题模型.
                    Blei 等人在  LDA (latent Dirichlet allocation) 主题模型中引入  nCRP  过程, 为文档主题提供树形结构的先验分
                 布, 提出  hLDA (hierarchical LDA) 层次主题模型  [2] . 也有研究者研究  hLDA  模型的采样效率    [17−19] 和时变主题的层
                 次结构  [20] . 然而, 由于  hLDA  主题模型生成文档-主题分布只限定在树中某一分支, 模型无法全面地分析主题分布.
                    为了解决文档主题分布路径单一的问题, 研究者将主题共享的思想应用于主题树形结构的共享, 实现从主题
                 树分支中自由组合主题分布, 主题层次宽度也不受限制, 层次结构更加灵活                       [21] .
                    nHDP (nested hierarchical Dirichlet processes) 层次主题模型  [3] 结合  nCRP  和  HDP  的思想, 为文档主题提供树
                 形结构的基分布. 在      nHDP  模型中, 每篇文档主题不再局限于树中一条分支路径上的节点, 而是来源于整棵树中若
                 干分支节点.
                    Ahmed  等人  [4] 把层次结构建模和文档建模分开, 通过改进的吉布斯采样方法, 提出                    nCRF (nested Chinese
                 restaurant franchise) 构造过程, 实现主题层次结构共享. Huang      等人  [22] 利用  nCRP  和多层  HDP  实现  BHMC
                 (Bayesian hierarchical mixture clustering) 层次主题模型, 构建主题层次分布.
                    在实际应用中, 基于      nCRP  的层次主题模型在构建领域主题层次中存在以下问题: ① 主题与领域之间的映射
                 不准确, 导致主题无法明确地描述对应的领域涵义; ② 主题关系无法同时体现领域主题之间的层次关系以及同一
                 层级多个主题下主题方面的共享关系; ③ 生成的主题词既不能较好地描述父主题对其下子主题的概括性, 也不能
                 较好地体现关联子主题之间的领域差异性.
                  1.2   基于机器学习方法构建主题层次结构
                    除了主题模型和层次主题模型, 通过机器学习方法生成主题层次结构也是研究的热点. 一种普遍的方法是结
                 合矩阵分解的思想, 构建文档-主题和主题-词语分布. 研究者通过成对主题的关联矩阵构建                               PAM (Pachinko
                 allocation model) 模型  [23,24] , 将子主题的父主题定义为子主题的先验分布, 使得主题分布中既包含词语也包含其他
                 主题, 构建主题层次关系. 研究者结合非负矩阵分解               (non-negative matrix factorization, NMF) [25,26] , 提出基于正交约
                 束的分层稀疏     NMF  主题模型, 构建主题层次.
                    在深度模型方面, 为了构建主题层次关系, 研究者通过多层伽马信念网络                       (multi-layer Gamma belief network)、
                 泊松因子分析     (Poisson factor analysis, PFA) 和词向量提出  WEDTM (word embeddings deep topic model) 模型  [7] , 或
                 结合  Dirichlet 信念网  [8] 生成主题的先验分布, 构建主题的深层次表示; 为了构建主题关联关系, 研究者基于泊松因
                 子分析, 通过   Sigmoid  信念网  (Sigmoid belief network, SBN), 生成主题特征矩阵的深层表示, 为文档主题提供先验
                 分布, 生成主题的网状关联图         [10] , 其中包含了一些主题之间共同关联的主题, 但关联主题的主题词是没有差异的,
                 且主题的层次关系也不明确.
                    Isonuma 等人  [9] 基于自编码变分贝叶斯     (auto-encoding variational Bayes, AEVB), 构建主题的先验分布, 提出树
                 形结构的神经主题模型        TSNTM (tree structured neural topic model), 生成主题树形结构. 也有研究者通过在模型中
                 增加种子信息, 构建基于弱监督的、满足用户需求的主题层次构建模型                       [5,6,27] .
                    然而, 以上研究存在如下问题: ① 主题与领域的对应关系不明确; ② 主要侧重于主题的层次关系构建, 忽略了
                 相同层级主题下子主题间的关联关系; ③ 关联主题是主题网状结构中的公共节点, 导致其主题词没有差异性, 主
                 题层次关系也不明确.
                  1.3   基于领域知识的主题模型/层次主题模型
                    为了抽取领域文本中的领域主题, Chen 等人          [28] 利用领域词语的频繁项集发现词语的不共现性, 以词语              cannot-link
                 集构建领域知识, 引导      LDA  主题模型中主题-主题词的分配过程. 在利用词语语义信息方面, 研究者在主题模型中
                 通过同义词    [29] 或词向量  [30] 明确词语之间的语义相似性, 以词语        must-link  集构建领域知识, 改进   LDA  主题模型,
                 使得语义相近的词语尽量分配在相同主题中, 提高主题词对领域主题的描述力.
   210   211   212   213   214   215   216   217   218   219   220