Page 213 - 《软件学报》2024年第4期
P. 213
万常选 等: 主题方面共享的领域主题层次模型 1791
hierarchical relationships among domain topics but also sub-topic aspect sharing relationships under different parent topics. There is no
appropriate model that yields such domain topic hierarchy in the current research on topic relationships. In order to automatically and
effectively mine the hierarchical and correlated relationships of domain topics from domain texts, improvements are put forward as
follows. Firstly, this study improves the nCRP construction method through the topic sharing mechanism and proposes the nCRP+
hierarchical construction method to provide a tree-structured prior distribution with hierarchical topic aspect sharing for topics generated
from topic models. Then the reallocated hierarchical Dirichlet processes (rHDP) are developed based on nCRP+ and HDP models, and an
rHDP model is proposed. By employing the domain taxonomy, word semantics, and domain representation of topic words, the study
defines domain knowledge, including the domain membership degree based on the voting mechanism, the semantic relevance between
words and domain topics, and the contribution degree of hierarchical topic words. Finally, domain knowledge is used to improve the
allocation processes of domain topics and topic words in the rHDP model, and rHDP with domain knowledge (rHDP_DK) model is
proposed to improve the sampling process. The experimental results show that hierarchical topic models based on nCRP+ are superior to
those based on nCRP (hLDA and nHDP) and neural topic model (TSNTM) in terms of evaluation metrics. The topic hierarchy, built by
the rHDP_DK model, is characterized by clear domain topic hierarchy and explicit domain differences among related sub-topics.
Furthermore, the model will provide a general automatic mining framework for domain topic hierarchy.
Key words: hierarchical topic model; domain taxonomy; word semantics; correlated relationships of topics; hierarchical sampling process;
domain topic hierarchy
互联网平台中存在大量与领域相关的文本数据 (简称领域文本), 这些文本数据不仅描述了领域在各个子领域
的发展状况, 还刻画了领域融合发展的特点. 本文将反映领域、子领域和融合领域涵义的主题定义为领域主题, 领
域主题关系则间接地反映了领域与子领域、领域与融合领域之间的内在关系. 因此, 领域主题关系的研究将为分
析领域发展现状、洞察融合发展形态、辅助发展趋势预测等方面提供技术支撑.
以财经领域相关文本 (简称财经文本) 为例, 研究者按经济总量的产出方面将宏观经济分成 5 个一级经济指
标 [1] , 国家统计部门进一步将其细分为 22 个子领域 (简称为二级经济指标). 这些一级经济指标与二级经济指标之
间存在纵向的层次关系, 且不同一级经济指标下的二级经济指标之间还存在横向的关联关系. 将经济指标对应领
域主题, 财经文本中领域主题的层次关系和关联关系可用图 1 所示领域主题层次表示.
宏观经济
消费 进出口 政府财政 投资 人口与就业
医药 文化 对外 医药 对外 能源 IT 交通 医药 对外 能源 固定 房地 文化 社会
卫生 教育 体育 旅游 贸易 卫生 贸易 运输 卫生 贸易 资产 产 体育 金融 IT 人口 教育 保障
图 1 财经文本中领域主题的层次关系和关联关系
本文将同一层级中不同领域主题下共享的主题方面 (或子主题) 定义为关联子主题, 如图 1 中“医药卫生”
“对外贸易”等子主题. 首先, 在消费、进出口、政府财政等一级经济指标 (主题) 下都有“医药卫生”二级经济指标
(子主题), 以反映“医药卫生”子领域在不同一级经济指标方面 (侧面) 的发展情况, 显然不同主题下这些共享的主
题方面 (或子主题) 之间是存在关联关系的; 其次, 在分析领域主题词 (即反映主题涵义的词语) 时发现, 关联子主
题之间还存在领域差异, 例如, “医药卫生”作为消费、进出口、政府财政等主题下的关联子主题, 分别体现了“医
药卫生消费”“医药进出口”“医药卫生保障”的涵义, 即关联子主题的主题词应该是有差异的. 类似的现象在新闻文
本 (例如, 20NewsGroup) 中也存在.
在构建主题层次关系和关联关系方面, 现有相关研究成果主要包括: ① 基于 nCRP (nested Chinese restaurant
process) 的层次主题模型通过 nCRP 构造方法 [2−4] 为主题模型中的文档主题提供先验分布, 自动生成主题树形结构
并抽取主题词; ② 通过种子词的树形关系引导机器学习方法生成主题树形结构 [5,6] , 描述主题层次关系, 该主题层
次关系存在对固定的树形结构过分依赖的问题; ③ 结合深度模型中的多层 Gamma 信念网 [7] 、Dirichlet 信念网 [8]
或神经网络 [9] 为文档主题或主题词语提供层次化的先验分布, 生成树形结构的主题层次关系, 但是这类主题结构
无法描述主题方面的关联关系; ④ 结合深度模型中的 Sigmoid 信念网 [10] 为文档主题提供先验分布, 生成主题关联