Page 212 - 《软件学报》2024年第4期
P. 212

软件学报 ISSN 1000-9825, CODEN RUXUEW                                        E-mail: jos@iscas.ac.cn
                 Journal of Software,2024,35(4):1790−1818 [doi: 10.13328/j.cnki.jos.006840]  http://www.jos.org.cn
                 ©中国科学院软件研究所版权所有.                                                          Tel: +86-10-62562563



                                                           *
                 主题方面共享的领域主题层次模型

                 万常选  1,3 ,    张奕韬  1,2,3 ,    刘德喜  1,3 ,    刘喜平  1,3 ,    廖国琼  1,3 ,    万齐智  1,3


                 1
                  (江西财经大学 信息管理学院, 江西 南昌 330013)
                 2
                  (华东交通大学 软件学院, 江西 南昌 330013)
                 3
                  (江西省高校数据与知识工程重点实验室 (江西财经大学), 江西 南昌 330013)
                 通信作者: 张奕韬, E-mail: 25658497@qq.com

                 摘 要: 层次主题模型是构建主题层次的重要工具. 现有的层次主题模型大多通过在主题模型中引入                                 nCRP  构造
                 方法, 为文档主题提供树形结构的先验分布, 但无法生成具有明确领域涵义的主题层次结构, 即领域主题层次. 同
                 时, 领域主题不仅存在层次关系, 而且不同父主题下的子主题之间还存在子领域方面共享的关联关系, 在现有主题
                 关系研究中没有合适的模型来生成这种领域主题层次. 为了从领域文本中自动、有效地挖掘出领域主题的层次关
                 系和关联关系, 在     4  个方面进行创新研究. 首先, 通过主题共享机制改进              nCRP  构造方法, 提出   nCRP+层次构造方
                 法, 为主题模型中的主题提供具有分层主题方面共享的树形先验分布; 其次, 结合                        nCRP+和  HDP  模型构建重分层
                 的  Dirichlet 过程, 提出  rHDP (reallocated hierarchical Dirichlet processes) 层次主题模型; 第三, 结合领域分类信息、
                 词语语义和主题词的领域代表性, 定义领域知识, 包括基于投票机制的领域隶属度、词语与领域主题的语义相关
                 度和层次化的主题-词语贡献度; 最后, 通过领域知识改进                rHDP  主题模型中领域主题和主题词的分配过程, 提出结
                 合领域知识的层次主题模型           rHDP_DK (rHDP with domain knowledge), 并改进采样过程. 实验结果表明, 基于
                 nCRP+的层次主题模型在评价指标方面均优于基于                  nCRP  的层次主题模型      (hLDA, nHDP) 和神经主题模型
                 (TSNTM); 通过  rHDP_DK  模型生成的主题层次结构具有领域主题层次清晰、关联子主题的主题词领域差异明确
                 的特点. 此外, 该模型将为领域主题层次提供一个通用的自动挖掘框架.
                 关键词: 层次主题模型; 领域分类信息; 词语语义; 主题关联关系; 层次化的采样过程; 领域主题层次
                 中图法分类号: TP311

                 中文引用格式: 万常选, 张奕韬, 刘德喜, 刘喜平, 廖国琼, 万齐智. 主题方面共享的领域主题层次模型. 软件学报, 2024, 35(4):
                 1790–1818. http://www.jos.org.cn/1000-9825/6840.htm
                 英文引用格式: Wan CX, Zhang YT, Liu DX, Liu XP, Liao GQ, Wan QZ. Domain Topic Hierarchy Model for Topic Aspect Sharing.
                 Ruan Jian Xue Bao/Journal of Software, 2024, 35(4): 1790–1818 (in Chinese). http://www.jos.org.cn/1000-9825/6840.htm

                 Domain Topic Hierarchy Model for Topic Aspect Sharing
                                                                                   1,3
                               1,3
                                                        1,3
                                                                   1,3
                 WAN Chang-Xuan , ZHANG Yi-Tao 1,2,3 , LIU De-Xi , LIU Xi-Ping , LIAO Guo-Qiong , WAN Qi-Zhi 1,3
                 1
                 (School of Information Managment, Jiangxi University of Finance and Economics, Nanchang 330013, China)
                 2
                 (School of Software, East China Jiaotong University, Nanchang 330013, China)
                 3
                 (Jiangxi Key Laboratory of Data and Knowledge Engineering (Jiangxi University of Finance and Economics), Nanchang 330013, China)
                 Abstract:  The  hierarchical  topic  model  is  an  important  tool  to  organize  topic  hierarchy.  Most  of  the  existing  hierarchical  topic  models
                 provide tree-structured prior distributions for document topics by introducing the nCRP construction method into the topic models, but they
                 cannot  acquire  a  topic  hierarchy  with  clear  domain  meanings,  referred  to  as  domain  topic  hierarchy.  Meanwhile,  there  are  not  only


                 *    基金项目: 国家自然科学基金  (61972184, 62272205, 62272206, 62076112)
                  收稿时间: 2022-03-09; 修改时间: 2022-06-28, 2022-09-29; 采用时间: 2022-11-30; jos 在线出版时间: 2023-07-28
                  CNKI 网络首发时间: 2023-08-01
   207   208   209   210   211   212   213   214   215   216   217