Page 225 - 《软件学报》2024年第4期
P. 225

万常选 等: 主题方面共享的领域主题层次模型                                                          1803


                    在领域知识方面, 领域类别信息包括官方定义的领域类别, 以及预处理后各个领域的代表性词语. 针对财经微
                 博文本, 文献   [1,12] 给出了  5 个一级经济指标, 包括投资、进出口、消费、政府财政和人口就业, 及其代表性词语;
                 本文根据国家统计局官网         (http://www.stats.gov.cn/) 对经济子领域的划分, 选择了  22  个二级经济指标, 包括人口、
                 固定资产投资     (侧重房地产方面)、对外经贸、能源、财政、人民生活、城市基础设施、资源环境、农业、工业、
                 建筑业、运输邮电、信息技术、批发零售、旅游、金融业、教育、科技、医药卫生、社会服务、文化体育、公
                 共管理. 结合官网定义的领域代表性词语, 通过词语之间的点互信息                     (pointwise mutual information, PMI) 确定了各
                 个领域的代表性词语, 如附录         A  所示.
                    20NewsGroup  数据集划分了    7  个一级领域, 包括   alt (无神论方面的主题)、comp (计算机软硬件方面的主题)、
                 misc (无法明确分类的其余主题, 这里主要是与二手市场有关的主题)、rec (recreation, 休闲娱乐方面的主题)、sci
                 (科学研究与应用方面的主题)、soc (社会科学方面的主题) 和                 talk (辩论或人们长期争辩的主题); 同时也定义了
                 15  个二级领域, 包括   atheism (无神论)、graphics (图形)、os (操作系统)、sys (系统, 偏硬件)、windows (系统, 偏软
                 件)、forsale (二手交易)、motorcycles (摩托车)、auto (汽车)、sport (运动)、crypt (密码学)、electronics (电子学)、
                 med (医学)、space (太空学)、religion (宗教信念) 和   politics (政治). 由于英文数据集中没有专家给定的代表性词
                 语, 本文根据这些领域名称与文本中其他词语的                PMI 值选择对应的领域代表性词语, 如附录            A  所示. 由于领域数
                 据集只包括领域和子领域的定义, 因此, 实验只分析具有两层主题方面共享的主题层次.
                  4.3   对比模型与参数设置
                    (1) 对比模型
                    本文的层次主题模型主要考虑了两个方面: ① nCRP+层次构造方法是在                     nCRP  的基础上考虑每个层级内的主
                 题方面共享, 改变了主题树形结构的先验分布, 构建               rHDP  层次主题模型; ② 结合领域知识的层次主题模型改进了
                 每层级主题和主题词的分配过程. 因此, 实验内容需要验证两个方面: ① 对比基于                        nCRP  和神经网络的层次主题
                 模型, 基于  nCRP+的层次主题模型对主题层次构建的影响; ② 对比各方面领域知识对领域主题层次构建和主题词
                 抽取的影响.
                    本文的对比模型包括以下          9  种.
                           [2]
                    ① hLDA : 基于  nCRP  构造方法和    LDA  的层次主题模型.
                    ② nHDP : 基于  nCRP  构造方法和    HDP  的层次主题模型.
                           [3]
                             [9]
                    ③ TSNTM : 基于自编码变分贝叶斯和双递归神经网络的主题层次构建模型.
                             [7]
                    ④ WEDTM : 基于多层信念网络、泊松因子分析和词向量的主题层次构建模型.
                    ⑤ rHDP: 基于  nCRP+构造方法和     HDP  的层次主题模型.
                    ⑥ rHDP_1: 单独考虑了领域隶属度的         rHDP  模型.
                    ⑦ rHDP_2: 单独考虑了词语-主题语义相关度的            rHDP  模型.
                    ⑧ rHDP_3: 单独考虑了层次化主题-词语贡献度的            rHDP  模型.
                    ⑨ rHDP_DK: 综合考虑了领域隶属度、词语-主题语义相关度和层次化主题-词语贡献度的                         rHDP  模型.
                    (2) 参数设置
                    在层次主题模型中, CRF       分配过程中的下层       CRP  超参数  α  值越小, 文档中的主题数越少; 上层        CRP  超参数  γ
                 值越大, 生成新主题的概率越大. 主题-词语分布超参数               β  值将会影响词语的主题分布, 其值越小, 词语属于一个主
                 题的概率越大. 通过分析和调试模型生成的主题及其词语分布, 本文将层次主题模型                           rHDP、rHDP_1、rHDP_2、
                 rHDP_3  以及  rHDP_DK  中上层  CRF  分配过程的参数    α、β  和  γ 分别设置为  1.5、0.5  和  0.01, 下层  CRF  对应参数
                 分别设置   1.5、0.3  和  0.1. 词语之间的语义相似性用于计算待分配词语与该词语所在层级主题中词语的语义相似
                 性, 便于进一步分析词语与该主题的语义相关度, 用于改善主题-词语分配过程. 语义相似度阈值                             ξ 将影响模型中
                 主题的词语分布, 阈值越高, 主题中词语的语义更接近, 影响了主题中词语的多样性. 考虑到领域主题涵义的明确
                 性和每层级主题词的代表性, 同时兼顾主题中词语的多样性, 经调试, 上层和下层                        CRF  分配过程中的语义相似性
   220   221   222   223   224   225   226   227   228   229   230