Page 218 - 《软件学报》2024年第4期
P. 218

1796                                                       软件学报  2024  年第  35  卷第  4  期


                 层和第   1  层节点, 即生成第   0  层和第  1  层主题, 其中第  1  层的每个主题中包括来自不同文档的词语分组中的词语;
                 为了满足下层     CRF  过程对输入文档的要求, 将划分到该主题的词语分组按照其所在文档进行合并, 得到若干个词

                 语子集. 结合表    1  符号定义, 第  l–1  层的主题数可表示为      K  , 并作为第  l 层  CRF  的输入参数. 因此, 当   l≥2  时,
                                                               l−1


                 第  l 层的  CRF  通过调用  K  次两层  DP  过程生成第  l 层中每一个词语子集的主题分布.
                                     l−1


                                               表 1    rHDP  层次主题模型符号说明

                           符号               说明                 符号                 说明
                            l           符号所处的层次                 t ji       j 餐厅顾客 i 所坐的餐桌
                                        全局随机概率测度                         j 餐厅中已分配顾客的餐桌集合
                            G 0                                 T j
                                  文档 (词语子集) j 的随机概率测度           t        j 餐厅中就座餐桌 t 的顾客集合
                            G j                                  X
                                                                 j
                            H           上层DP的基分布               θ ji     j 餐厅中顾客 x ji  的餐桌分配参数
                            γ           上层DP的超参数                 φ t ji j  j 餐厅中餐桌 t ji  的菜肴分配参数
                            α           下层DP的超参数                Φ            菜单中的菜肴集合
                            β         主题-词语分布的超参数                ϕ k         菜肴 k 的分布参数
                            J           所有餐厅的集合                T k          供应菜肴 k 的餐桌集合
                            j            单个餐厅编号                 K         所有餐桌已供应的菜肴集合
                                       j 餐厅中的第 i 个顾客                 顾客就座餐厅 j 中餐桌 t 的概率分布参数
                            x ji                                  δ φ t
                                                                 j
                            X            所有顾客集合                   δ k   餐桌分配菜肴 k 的概率分布参数
                                                                ϕ

                                                                              {         }
                    通过每个层级中的两层         DP  过程生成文档    (或词语子集) 的主题分布. 假设         θ ,θ ,...,θ l   是服从  G  的独立同
                                                                                                l
                                                                                  l
                                                                                l
                                                                                j1  j2  ji      j
                                                              l
                 分布的随机变量序列, 该序列的先验分布来源于基分布                  H , 此时   θ  对应词语   x  的主题分布参数,   F(θ ) 表示在给
                                                                    l
                                                                             l
                                                                                               l
                                                                    ji       ji                ji
                               l
                       l      x  的主题分布, 如公式
                 定参数  θ  下词语                    (2) 所示.
                       ji      ji
                                                      
                                                        l
                                                       θ | G l
                                                        ji  j
                                                                                                     (2)
                                                      
                                                                 l
                                                           l
                                                         l
                                                      
                                                       x | θ ∼ F(θ )
                                                         ji  ji  ji

                                                               l
                                                                                  l
                    对于第   l 层的每个   CRF  分配过程, 统计餐厅      j 中餐桌  t 的顾客数和供应菜肴       k 的餐桌数, 分别记为       X   和
                                                                                                     t l

                                                                                                     j

                 T  . 在新顾客分配餐桌时, 被分配到已有餐桌的概率与该餐桌已有顾客数成正比, 被分配到新餐桌的概率与该层
                  k l

                      l
                 参数  α 成正比, 顾客-餐桌的分配过程如公式           (3) 所示. 在新餐桌分配菜肴时, 被分配到已有菜肴的概率与该菜肴
                                                              l
                 供应的餐桌数成正比, 被分配到新菜肴的概率与该层参数                  γ 成正比, 餐桌-菜肴分配过程如公式          (4) 所示.
                                                                  t l
                                                            ∑   |X |       α l
                                         l
                                                         l
                                              l
                                                       l
                                           l
                                        θ | θ ,θ ,...,θ l  ,α ,G ∼  j  δ t l +  G  l                  (3)
                                         ji  j1  j2  j(i−1)  0  i−1+α l  φ j  i−1+α l  0
                                                            t l ∈T l
                                                              j
                                                                         k l
                                                                   ∑    |T |      γ l
                                          t l
                                  t l
                                                 t l
                                     1
                                                              l
                                 φ | φ ,...,φ ,φ ,...,φ ,...,φ ,...,φ t l −1  ,γ ,H ∼  δ k l +  H l   (4)
                                                                 l
                                            1
                                                      1
                                                                                  k l
                                                                        k l
                                  j  1    1  2   2    j    j          |T |+γ l  ϕ  |T |+γ l
                                                                   k l ∈K l
                    每层级   CRF  分配过程对应每层级节点的主题分配以及主题词的抽取; 多层                    CRF  分配过程则对应多层主题关
                 系的构建及其主题词的抽取. 通过采样和后验概率推导构造                    rHDP  层次主题模型, 为每一篇文档生成层次化的主
                 题分布以及主题-词语分布.
                  3   结合领域知识的      rHDP  层次主题模型
                    为了获取领域主题的层次关系、关联关系以及关联子主题的差异性, 基于领域知识改进                             rHDP  层次主题模型,
                 构建结合领域知识的       rHDP  层次主题模型    (rHDP with domain knowledge, rHDP_DK).
                    以构建经济指标的       3  层主题树形结构为例, 如前文图        1  所示, 假设顾客对应词语、菜肴对应主题, 餐厅对应文
                 档, 文档的表现形式是词语集. 将         nCRP+构造方法应用到财经文本中, 第          1  层  CRF  中的餐厅对应财经文本的词语
                 集, 餐厅的菜肴风格对应财经文本的经济领域大类属性, 即对应一级经济指标的主题属性; 第                            2  层  CRF  中的餐厅
   213   214   215   216   217   218   219   220   221   222   223