Page 230 - 《软件学报》2024年第4期
P. 230

1808                                                       软件学报  2024  年第  35  卷第  4  期


                    从表  4  可发现, rHDP_1、rHDP_2  和  rHDP_3  模型的分类指标值比     rHDP  模型高, 说明增加领域知识对模型的
                 分类效果有帮助. 其中, 层次化主题-词语贡献度明确了关联子主题的区分度, 提高了分类效果; 相较于语义相关度,
                 领域隶属度也有较好的预测效果. rHDP_DK           模型的分类指标值是最好的, 主要原因是通过领域知识改进了主题的
                 领域特征, 明确了文档的领域类别.
                    (2) 定性分析
                    以财经文本为例, 分析基于         rHDP_DK  模型的、具有两层主题方面共享的主题层次. 结合词语集                  W  的领域隶
                 属索引值, 如式    (6) 所示, 通过计算主题词与经济指标中代表性词语之间的语义相似度, 分别计算主题与一级指标/
                 领域、子主题与二级指标/领域之间的语义相关性, 将主题、子主题分别映射到语义最相关的一级指标/领域、二
                 级指标/领域, 主题分布结果如表         5  所示.

                                  表 5    一级经济指标、二级经济指标分别与主题、子主题的对应情况

                                                               一级经济指标
                   二级经济指标
                                 投资 (topic1)  进出口 (topic3)  政府财政 (topic6)   消费 (topic5)  人口与就业 (topic4)
                      人口          subtopic1    subtopic2      subtopic10     subtopic8      subtopic11
                   固定资产投资           -             -           subtopic16     subtopic16     subtopic12
                    对外经贸         subtopic11    subtopic1         -             -            subtopic20
                      能源          subtopic4    subtopic4       subtopic6     subtopic10     subtopic3
                      财政          subtopic3    subtopic12      subtopic3     subtopic21     subtopic9
                    人民生活          subtopic8    subtopic9       subtopic4     subtopic2      subtopic6
                   城市基础设施        subtopic19    subtopic19     subtopic19     subtopic3      subtopic22
                    资源环境         subtopic18    subtopic16     subtopic12     subtopic17     subtopic2
                      农业         subtopic17    subtopic20     subtopic21     subtopic12     subtopic24
                      工业          subtopic9    subtopic8       subtopic5     subtopic1      subtopic8
                     建筑业            -             -              -             -               -
                    运输邮电         subtopic14    subtopic13      subtopic7     subtopic14     subtopic18
                    信息技术         subtopic13    subtopic3      subtopic14     subtopic11     subtopic16
                    批发零售            -             -           subtopic18     subtopic22        -
                      旅游         subtopic23    subtopic15     subtopic17     subtopic7      subtopic19
                     金融业          subtopic6    subtopic10     subtopic13     subtopic13     subtopic1
                      教育         subtopic10    subtopic6       subtopic1     subtopic4      subtopic5
                      科技            -          subtopic5       subtopic9     subtopic6      subtopic7
                    医药卫生         subtopic21    subtopic18      subtopic8     subtopic9      subtopic13
                    社会服务         subtopic20    subtopic21     subtopic20     subtopic20     subtopic14
                    文化体育         subtopic22    subtopic11     subtopic15     subtopic19     subtopic10
                    公共管理          subtopic7    subtopic7      subtopic11     subtopic5      subtopic4

                    表  5  中, 表头括号中的内容表示一级经济指标在第             1  层主题中对应的主题编号, 如一级经济指标“投资”对应
                 第  1  层主题中的第   1  个主题; 表体中的每一行表示该二级经济指标分别在哪些一级经济指标所对应的主题下生成
                 了子主题, 分量为对应主题下的子主题编号, 如二级经济指标“人口”分别在一级经济指标“投资”“进出口”“政府财
                 政”“消费”“人口与就业”下生成了相互关联的              (共享的) 子主题, 在对应主题中的子主题编号分别为               1、2、10、8
                 和  11.
                    每个主题下与二级指标/领域语义相关的子主题分布的统计结果如表                            6  和表  7  所示. 其中, 对于每个主
                 题, 在第  1  行中有两个值“sb 1 /sb 2 ”, 分别表示该主题下在合并前/合并后与对应二级指标/领域语义相关的子主
                 题数量; 在第    3  行中是语义相关子主题覆盖率, 表示合并前的语义相关子主题数与第                        2  行中的所有子主题数
                 的比值.
   225   226   227   228   229   230   231   232   233   234   235