Page 230 - 《软件学报》2024年第4期
P. 230
1808 软件学报 2024 年第 35 卷第 4 期
从表 4 可发现, rHDP_1、rHDP_2 和 rHDP_3 模型的分类指标值比 rHDP 模型高, 说明增加领域知识对模型的
分类效果有帮助. 其中, 层次化主题-词语贡献度明确了关联子主题的区分度, 提高了分类效果; 相较于语义相关度,
领域隶属度也有较好的预测效果. rHDP_DK 模型的分类指标值是最好的, 主要原因是通过领域知识改进了主题的
领域特征, 明确了文档的领域类别.
(2) 定性分析
以财经文本为例, 分析基于 rHDP_DK 模型的、具有两层主题方面共享的主题层次. 结合词语集 W 的领域隶
属索引值, 如式 (6) 所示, 通过计算主题词与经济指标中代表性词语之间的语义相似度, 分别计算主题与一级指标/
领域、子主题与二级指标/领域之间的语义相关性, 将主题、子主题分别映射到语义最相关的一级指标/领域、二
级指标/领域, 主题分布结果如表 5 所示.
表 5 一级经济指标、二级经济指标分别与主题、子主题的对应情况
一级经济指标
二级经济指标
投资 (topic1) 进出口 (topic3) 政府财政 (topic6) 消费 (topic5) 人口与就业 (topic4)
人口 subtopic1 subtopic2 subtopic10 subtopic8 subtopic11
固定资产投资 - - subtopic16 subtopic16 subtopic12
对外经贸 subtopic11 subtopic1 - - subtopic20
能源 subtopic4 subtopic4 subtopic6 subtopic10 subtopic3
财政 subtopic3 subtopic12 subtopic3 subtopic21 subtopic9
人民生活 subtopic8 subtopic9 subtopic4 subtopic2 subtopic6
城市基础设施 subtopic19 subtopic19 subtopic19 subtopic3 subtopic22
资源环境 subtopic18 subtopic16 subtopic12 subtopic17 subtopic2
农业 subtopic17 subtopic20 subtopic21 subtopic12 subtopic24
工业 subtopic9 subtopic8 subtopic5 subtopic1 subtopic8
建筑业 - - - - -
运输邮电 subtopic14 subtopic13 subtopic7 subtopic14 subtopic18
信息技术 subtopic13 subtopic3 subtopic14 subtopic11 subtopic16
批发零售 - - subtopic18 subtopic22 -
旅游 subtopic23 subtopic15 subtopic17 subtopic7 subtopic19
金融业 subtopic6 subtopic10 subtopic13 subtopic13 subtopic1
教育 subtopic10 subtopic6 subtopic1 subtopic4 subtopic5
科技 - subtopic5 subtopic9 subtopic6 subtopic7
医药卫生 subtopic21 subtopic18 subtopic8 subtopic9 subtopic13
社会服务 subtopic20 subtopic21 subtopic20 subtopic20 subtopic14
文化体育 subtopic22 subtopic11 subtopic15 subtopic19 subtopic10
公共管理 subtopic7 subtopic7 subtopic11 subtopic5 subtopic4
表 5 中, 表头括号中的内容表示一级经济指标在第 1 层主题中对应的主题编号, 如一级经济指标“投资”对应
第 1 层主题中的第 1 个主题; 表体中的每一行表示该二级经济指标分别在哪些一级经济指标所对应的主题下生成
了子主题, 分量为对应主题下的子主题编号, 如二级经济指标“人口”分别在一级经济指标“投资”“进出口”“政府财
政”“消费”“人口与就业”下生成了相互关联的 (共享的) 子主题, 在对应主题中的子主题编号分别为 1、2、10、8
和 11.
每个主题下与二级指标/领域语义相关的子主题分布的统计结果如表 6 和表 7 所示. 其中, 对于每个主
题, 在第 1 行中有两个值“sb 1 /sb 2 ”, 分别表示该主题下在合并前/合并后与对应二级指标/领域语义相关的子主
题数量; 在第 3 行中是语义相关子主题覆盖率, 表示合并前的语义相关子主题数与第 2 行中的所有子主题数
的比值.