Page 228 - 《软件学报》2024年第4期
P. 228

1806                                                       软件学报  2024  年第  35  卷第  4  期


                 率, 作为分类器的特征向量. 限于篇幅, 实验中只给出了              graphics 和  crypt 类别的分类结果, 如表  3  所示.
                    从表  3  可发现, rHDP  模型的分类指标值总体上均高于           hLDA、nHDP、TSNTM     和  WEDTM  模型, 主要原因
                 是  rHDP  模型通过分层次的主题共享生成主题分布, 拓宽了每个领域下子领域的范围, 模型将使用更加丰富的主
                 题特征, 提高文档类别预测的效果. 其中, nHDP           模型的   R  值比  rHDP  模型高, 说明多分支的主题分布可以明确更
                 多文档的类别.

                                                 表 3    对比模型的分类指标值

                                                graphics                       crypt
                             模型
                                         P         R        F1         P        R         F1
                             hLDA      0.776 1   0.827 2   0.800 8   0.910 2   0.939 5  0.924 6
                             nHDP      0.802 3   0.868 3   0.834 0   0.933 6   0.963 7  0.948 4
                            TSNTM      0.829 4   0.860 1   0.844 4   0.939 3   0.935 5  0.937 4
                            WEDTM      0.832 2   0.862 1   0.846 9   0.940 3   0.947 8  0.944 0
                             rHDP      0.850 2   0.864 2   0.857 1   0.944 2   0.955 6  0.949 9

                  4.5   领域知识实验结果与分析
                    领域知识实验结果分析包括           rHDP  模型及其   4  个改进模型在    2  个数据集和各评价指标上的定量分析, 以及
                 rHDP_DK  模型生成的领域主题中主题词分布的定性分析.
                    (1) 定量分析
                    模型的定量评价指标包括困惑度、复杂度、主题多样性和分类指标, 其中                         5  个层次主题模型在     2  个数据集的
                 困惑度和复杂度分别如图         8  和图  9  所示.

                                                                 900
                         1 800
                                                                 850
                        perp  1 400                             perp  800
                                                                 750
                         1 000
                                                                 700
                          600                                    650
                              1  2  3  4   5  6  7  8  9  10         1  2  3  4  5  6  7  8  9  10
                                     交叉验证次数                                   交叉验证次数
                                    (a) 财经微博文本                                (b) 20NewsGroup
                                         rHDP      rHDP_1    rHDP_2    rHDP_3    rHDP_DK
                                                 图 8 层次主题模型的困惑度

                         8 000
                                                                1 400
                         6 000
                        comp  4 000                            comp  1 100
                         2 000                                   800
                           0                                     500
                             1  6  11  16  21  26  31  36  41       1    6   11   16   21   26    31
                                         迭代次数                                   迭代次数
                                       (a) 财经微博文本                             (b) 20NewsGroup
                                            rHDP    rHDP_1    rHDP_2    rHDP_3     rHDP_DK
                                                 图 9 层次主题模型的复杂度

                    从图  8  可看出, rHDP_1、rHDP_2、rHDP_3   和  rHDP_DK  模型的困惑度总体上低于        rHDP  模型, 说明增加领
                 域隶属度、词语与主题的语义相关度、层次化主题-词语贡献度可以改善模型在数据预测方面的效果. 其中,
                 rHDP_1  和  rHDP_2  模型的困惑度低于   rHDP_3  模型, 说明领域隶属度和语义信息在模型的数据预测方面的效果
   223   224   225   226   227   228   229   230   231   232   233