Page 213 - 《软件学报》2024年第4期
P. 213

万常选 等: 主题方面共享的领域主题层次模型                                                          1791


                 hierarchical  relationships  among  domain  topics  but  also  sub-topic  aspect  sharing  relationships  under  different  parent  topics.  There  is  no
                 appropriate  model  that  yields  such  domain  topic  hierarchy  in  the  current  research  on  topic  relationships.  In  order  to  automatically  and
                 effectively  mine  the  hierarchical  and  correlated  relationships  of  domain  topics  from  domain  texts,  improvements  are  put  forward  as
                 follows.  Firstly,  this  study  improves  the  nCRP  construction  method  through  the  topic  sharing  mechanism  and  proposes  the  nCRP+
                 hierarchical  construction  method  to  provide  a  tree-structured  prior  distribution  with  hierarchical  topic  aspect  sharing  for  topics  generated
                 from  topic  models.  Then  the  reallocated  hierarchical  Dirichlet  processes  (rHDP)  are  developed  based  on  nCRP+  and  HDP  models,  and  an
                 rHDP  model  is  proposed.  By  employing  the  domain  taxonomy,  word  semantics,  and  domain  representation  of  topic  words,  the  study
                 defines  domain  knowledge,  including  the  domain  membership  degree  based  on  the  voting  mechanism,  the  semantic  relevance  between
                 words  and  domain  topics,  and  the  contribution  degree  of  hierarchical  topic  words.  Finally,  domain  knowledge  is  used  to  improve  the
                 allocation  processes  of  domain  topics  and  topic  words  in  the  rHDP  model,  and  rHDP  with  domain  knowledge  (rHDP_DK)  model  is
                 proposed  to  improve  the  sampling  process.  The  experimental  results  show  that  hierarchical  topic  models  based  on  nCRP+  are  superior  to
                 those  based  on  nCRP  (hLDA  and  nHDP)  and  neural  topic  model  (TSNTM)  in  terms  of  evaluation  metrics.  The  topic  hierarchy,  built  by
                 the  rHDP_DK  model,  is  characterized  by  clear  domain  topic  hierarchy  and  explicit  domain  differences  among  related  sub-topics.
                 Furthermore, the model will provide a general automatic mining framework for domain topic hierarchy.
                 Key words:  hierarchical  topic  model;  domain  taxonomy;  word  semantics;  correlated  relationships  of  topics;  hierarchical  sampling  process;
                         domain topic hierarchy

                    互联网平台中存在大量与领域相关的文本数据                 (简称领域文本), 这些文本数据不仅描述了领域在各个子领域
                 的发展状况, 还刻画了领域融合发展的特点. 本文将反映领域、子领域和融合领域涵义的主题定义为领域主题, 领
                 域主题关系则间接地反映了领域与子领域、领域与融合领域之间的内在关系. 因此, 领域主题关系的研究将为分
                 析领域发展现状、洞察融合发展形态、辅助发展趋势预测等方面提供技术支撑.
                    以财经领域相关文本        (简称财经文本) 为例, 研究者按经济总量的产出方面将宏观经济分成                      5  个一级经济指
                 标  [1] , 国家统计部门进一步将其细分为       22  个子领域  (简称为二级经济指标). 这些一级经济指标与二级经济指标之
                 间存在纵向的层次关系, 且不同一级经济指标下的二级经济指标之间还存在横向的关联关系. 将经济指标对应领
                 域主题, 财经文本中领域主题的层次关系和关联关系可用图                   1  所示领域主题层次表示.

                                                               宏观经济
                           消费                  进出口              政府财政             投资          人口与就业


                  医药      文化       对外 医药    对外  能源 IT   交通  医药   对外  能源  固定 房地 文化                    社会
                  卫生  教育  体育   旅游  贸易 卫生    贸易          运输  卫生   贸易      资产   产  体育   金融 IT  人口  教育  保障
                                         图 1 财经文本中领域主题的层次关系和关联关系

                    本文将同一层级中不同领域主题下共享的主题方面                    (或子主题) 定义为关联子主题, 如图           1  中“医药卫生”
                 “对外贸易”等子主题. 首先, 在消费、进出口、政府财政等一级经济指标                      (主题) 下都有“医药卫生”二级经济指标
                 (子主题), 以反映“医药卫生”子领域在不同一级经济指标方面                  (侧面) 的发展情况, 显然不同主题下这些共享的主
                 题方面   (或子主题) 之间是存在关联关系的; 其次, 在分析领域主题词                 (即反映主题涵义的词语) 时发现, 关联子主
                 题之间还存在领域差异, 例如, “医药卫生”作为消费、进出口、政府财政等主题下的关联子主题, 分别体现了“医
                 药卫生消费”“医药进出口”“医药卫生保障”的涵义, 即关联子主题的主题词应该是有差异的. 类似的现象在新闻文
                 本  (例如, 20NewsGroup) 中也存在.
                    在构建主题层次关系和关联关系方面, 现有相关研究成果主要包括: ① 基于                        nCRP (nested Chinese restaurant
                 process) 的层次主题模型通过     nCRP  构造方法  [2−4] 为主题模型中的文档主题提供先验分布, 自动生成主题树形结构
                 并抽取主题词; ② 通过种子词的树形关系引导机器学习方法生成主题树形结构                         [5,6] , 描述主题层次关系, 该主题层
                 次关系存在对固定的树形结构过分依赖的问题; ③ 结合深度模型中的多层                        Gamma 信念网   [7] 、Dirichlet 信念网  [8]
                 或神经网络    [9] 为文档主题或主题词语提供层次化的先验分布, 生成树形结构的主题层次关系, 但是这类主题结构
                 无法描述主题方面的关联关系; ④ 结合深度模型中的                Sigmoid  信念网  [10] 为文档主题提供先验分布, 生成主题关联
   208   209   210   211   212   213   214   215   216   217   218