Page 212 - 《软件学报》2024年第4期
P. 212
软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn
Journal of Software,2024,35(4):1790−1818 [doi: 10.13328/j.cnki.jos.006840] http://www.jos.org.cn
©中国科学院软件研究所版权所有. Tel: +86-10-62562563
*
主题方面共享的领域主题层次模型
万常选 1,3 , 张奕韬 1,2,3 , 刘德喜 1,3 , 刘喜平 1,3 , 廖国琼 1,3 , 万齐智 1,3
1
(江西财经大学 信息管理学院, 江西 南昌 330013)
2
(华东交通大学 软件学院, 江西 南昌 330013)
3
(江西省高校数据与知识工程重点实验室 (江西财经大学), 江西 南昌 330013)
通信作者: 张奕韬, E-mail: 25658497@qq.com
摘 要: 层次主题模型是构建主题层次的重要工具. 现有的层次主题模型大多通过在主题模型中引入 nCRP 构造
方法, 为文档主题提供树形结构的先验分布, 但无法生成具有明确领域涵义的主题层次结构, 即领域主题层次. 同
时, 领域主题不仅存在层次关系, 而且不同父主题下的子主题之间还存在子领域方面共享的关联关系, 在现有主题
关系研究中没有合适的模型来生成这种领域主题层次. 为了从领域文本中自动、有效地挖掘出领域主题的层次关
系和关联关系, 在 4 个方面进行创新研究. 首先, 通过主题共享机制改进 nCRP 构造方法, 提出 nCRP+层次构造方
法, 为主题模型中的主题提供具有分层主题方面共享的树形先验分布; 其次, 结合 nCRP+和 HDP 模型构建重分层
的 Dirichlet 过程, 提出 rHDP (reallocated hierarchical Dirichlet processes) 层次主题模型; 第三, 结合领域分类信息、
词语语义和主题词的领域代表性, 定义领域知识, 包括基于投票机制的领域隶属度、词语与领域主题的语义相关
度和层次化的主题-词语贡献度; 最后, 通过领域知识改进 rHDP 主题模型中领域主题和主题词的分配过程, 提出结
合领域知识的层次主题模型 rHDP_DK (rHDP with domain knowledge), 并改进采样过程. 实验结果表明, 基于
nCRP+的层次主题模型在评价指标方面均优于基于 nCRP 的层次主题模型 (hLDA, nHDP) 和神经主题模型
(TSNTM); 通过 rHDP_DK 模型生成的主题层次结构具有领域主题层次清晰、关联子主题的主题词领域差异明确
的特点. 此外, 该模型将为领域主题层次提供一个通用的自动挖掘框架.
关键词: 层次主题模型; 领域分类信息; 词语语义; 主题关联关系; 层次化的采样过程; 领域主题层次
中图法分类号: TP311
中文引用格式: 万常选, 张奕韬, 刘德喜, 刘喜平, 廖国琼, 万齐智. 主题方面共享的领域主题层次模型. 软件学报, 2024, 35(4):
1790–1818. http://www.jos.org.cn/1000-9825/6840.htm
英文引用格式: Wan CX, Zhang YT, Liu DX, Liu XP, Liao GQ, Wan QZ. Domain Topic Hierarchy Model for Topic Aspect Sharing.
Ruan Jian Xue Bao/Journal of Software, 2024, 35(4): 1790–1818 (in Chinese). http://www.jos.org.cn/1000-9825/6840.htm
Domain Topic Hierarchy Model for Topic Aspect Sharing
1,3
1,3
1,3
1,3
WAN Chang-Xuan , ZHANG Yi-Tao 1,2,3 , LIU De-Xi , LIU Xi-Ping , LIAO Guo-Qiong , WAN Qi-Zhi 1,3
1
(School of Information Managment, Jiangxi University of Finance and Economics, Nanchang 330013, China)
2
(School of Software, East China Jiaotong University, Nanchang 330013, China)
3
(Jiangxi Key Laboratory of Data and Knowledge Engineering (Jiangxi University of Finance and Economics), Nanchang 330013, China)
Abstract: The hierarchical topic model is an important tool to organize topic hierarchy. Most of the existing hierarchical topic models
provide tree-structured prior distributions for document topics by introducing the nCRP construction method into the topic models, but they
cannot acquire a topic hierarchy with clear domain meanings, referred to as domain topic hierarchy. Meanwhile, there are not only
* 基金项目: 国家自然科学基金 (61972184, 62272205, 62272206, 62076112)
收稿时间: 2022-03-09; 修改时间: 2022-06-28, 2022-09-29; 采用时间: 2022-11-30; jos 在线出版时间: 2023-07-28
CNKI 网络首发时间: 2023-08-01