Page 231 - 《软件学报》2024年第4期
P. 231

万常选 等: 主题方面共享的领域主题层次模型                                                          1809


                                表 6    每个主题下与二级经济指标语义相关的子主题分布                (财经微博文本)

                    主题 (一级经济指标)         投资 (topic1)  进出口 (topic3)  政府财政 (topic6)  消费 (topic5)  人口与就业 (topic4)
                    语义相关的子主题数             23/18       21/19         20/20        21/20        22/20
                       全部子主题数              24          22            20           23           22
                  语义相关子主题覆盖率 (%)          95.8         95.5         100.0        91.3         100.0


                                表 7    每个主题下与二级经济指标语义相关的子主题分布                (20NewsGroup)

                     主题 (一级领域)        alt (topic1)  comp (topic2)  misc (topic3)  rec (topic4)  sci (topic5)  soc (topic7)  talk (topic8)
                    语义相关的子主题数           14/4      15/8       14/9     16/7     15/12     16/4     15/7
                      全部子主题数             14        15        14        18       16       16        16
                  语义相关子主题覆盖率 (%)        100.0     100.0     100.0     88.9     93.8     100.0     93.8

                    进一步说明:
                    ① 表  5  中会出现子主题编号超出子主题总数的现象               (各个主题下子主题总数如表          6  第  2  行所示), 原因是某
                 些子主题中的主题词概率值太低, 导致该子主题中词语分布为空. 例如, 在实验结果中主题                           topic4  下的子主题最大
                 编号为   24, 但子主题  21、23  为空, 因此有效的子主题总数仅为          22  个. 另外, 从国家统计局官网中选择的“建筑业”
                 代表性词语较少; 与此同时, 实验数据集中关于这个领域的文本也相对较少, 导致实验结果中描述该二级经济指标
                 的对应子主题为空.
                    ② 根据第   3.1  节中的领域隶属索引值计算方法可知, 主题            (或子主题) 的领域隶属结果可能存在           3  种情况.
                    i. 每个主题  (或子主题) 隶属于不同的一级经济指标            (或二级经济指标);
                    ii. 多个主题  (或子主题) 隶属于同一个一级经济指标            (或二级经济指标);
                    iii. 主题  (或子主题) 的领域隶属索引值不在已知的一级经济指标                 (或二级经济指标) 索引范围内, 即该主题
                 (或子主题) 不能映射到任何一个一级经济指标              (或二级经济指标).
                    ③ 在实验结果中, 主题       (或子主题) 的领域隶属结果主要以第           i 种情况出现. 第   ii 种情况只在第    2  层子主题的
                 领域隶属分布中出现, 此时我们采取子主题合并的方法进行处理, 即将领域隶属于同一个二级经济指标的多个子
                 主题合并成一个子主题, 其中, 主题         topic1  下合并后的子主题有     subtopic1 (子主题  1  和  2  合并)、subtopic11 (子主
                 题  11  和  15  合并)、subtopic4 (子主题  4  和  5  合并)、subtopic13 (子主题  13  和  16  合并) 和  subtopic10 (子主题  10
                 和  12  合并); 主题  topic3  下合并后的子主题是   subtopic7 (子主题  7、14  和  17  合并); 主题  topic4  下合并后子主题
                 是  subtopic8 (子主题  8、15  和  17  合并); 主题  topic5  下合并后的子主题是  subtopic6 (子主题  6  和  18  合并).
                    ④ 第  iii 种情况仅出现在    topic1、topic3  和  topic5  中, 包括  topic1  中的  subtopic24、topic3  中的  subtopic22、
                 topic5  中的  subtopic15  和  subtopic23.
                    ⑤ 在表   7 中, 由于  alt、soc 和  talk 与其他  4 个领域的领域涵义差异性较大, 所以它们之间的子领域交叉性较弱.
                    根据表   6  和表  7  中主题与领域中词语之间的语义相关分析结果可发现, rHDP_DK                层次主题模型生成的子主
                 题可以较全面地反映二级领域主题的领域涵义.
                    为了更直观地呈现层次主题模型中关联子主题在不同父主题中共享主题方面的有效性, 以及关联子主题之间
                 的差异性, 根据    rHDP_DK  模型生成的主题词语分布, 抽取出反映不同经济领域主题下关联子主题在“对外经贸”
                 和“人民生活”方面的主题-词语分布, 结果分别如表              8  和表  9  所示.
                    从表  8  中发现, “进出口”领域中的“对外经贸”子领域主要描述我国进出口贸易的发展方面, 如反倾销调查、
                 中俄原油管道、服务出口、丝绸之路经济带、一带一路等方面; “政府领域”中的“对外经贸”子领域主要体现为政
                 府在对外经贸方面的税收政策, 如空置税、零关税、增值税暂行条例等方面; “消费”领域中的“对外经贸”子领域
                 主要体现人们的外贸行为及其涉及的产品, 如进口博览会、中国茶、药品等方面.
                    从表  9  中发现, “投资”领域中的“人民生活”子领域主要描述与人民生活相关方面的投资, 如纪念币、茅台酒、
                 纪念钞、理财产品等方面; “进出口”领域中的“人民生活”子领域主要描述人们日常生活中的进出口产品的词语,
   226   227   228   229   230   231   232   233   234   235   236