Page 221 - 《软件学报》2024年第4期
P. 221

万常选 等: 主题方面共享的领域主题层次模型                                                          1799


                         l
                 座, 并由  G  采样生成新餐桌.
                         0
                                                                 t l
                                                               l
                                                      ∑     A(x ,k )          α l
                                                                 j
                                                               ji
                                  l
                                                    l
                                  θ | θ ,θ ,...,θ l  ,α ,G ∼  ∑      δ t l + ∑       G l             (10)
                                        l
                                                 l
                                     l
                                   ji  j1  j2  j(i−1)  0      l  t l  l  φ j  l  t l  l  0
                                                      t l ∈T l  A(x ,k )+α  A(x ,k )+α
                                                                 j
                                                              ji
                                                                               ji
                                                                                 j
                                                        j
                                                         t l ∈T l        t l ∈T l
                                                           j               j
                    如果新顾客选择新餐桌就座, 则需要为新餐桌分配菜肴. 新餐桌可被分配到其所在餐厅中的已有菜肴                                 k , 其分
                                                                                                   l
                 配概率或与相同菜肴风格的餐厅中供应该已有菜肴的餐桌数成正比, 或与供应该相同菜肴类别的已有菜肴的餐桌
                 数成正比; 结合公式      (7) 计算词语集的领域隶属度, 改进餐桌-菜肴分配过程, 即计算相同菜肴风格的餐厅中供应该
                                                               l
                         l
                 已有菜肴   k 的餐桌数, 或供应该相同菜肴类别的已有菜肴               k 的餐桌数, 记为    A k l j   , 如公式  (11) 所示; 被分配新菜肴
                               l
                 的概率与超参数      γ 成正比, 第  l 层  CRF  的餐桌-菜肴分配过程的参数如公式         (12) 所示.
                                                      ∑
                                            k l                  (           )
                                           A =                  I index j = index j ′                (11)
                                            j
                                                 ′   l   l  l ′  l
                                                 j , j,t ∈ T ,t ∈ T ′
                                                         j    j
                                                   l
                                                       l
                                                          l
                                                s.t. k = k ∧k ′ t l ′ = k  l
                                                   jt l   j
                                                                 ∑     A k l j     γ l
                                t l
                                               t l
                                        t l
                                                            l
                                                               l
                                          1
                                                    1
                                   1
                               φ | φ ,...,φ ,φ ,...,φ ,...,φ ,...,φ t l −1 ,γ ,H ∼  ∑  k l  δ k l + ∑  k l  H  l  (12)
                                          2
                                j
                                                         j
                                               2
                                   1
                                        1
                                                    j
                                                                             ϕ
                                                                 k l ∈K l  A +γ l  A +γ l
                                                                                    j
                                                                        j
                                                                    k l ∈K l    k l ∈K l
                    因此, 新餐桌可以分配与其所在餐厅的菜肴风格相同的餐厅中的已有菜肴, 或分配与已有餐桌供应菜肴的菜
                 肴类别相同的已有菜肴, 也可通过          H 分配新菜肴.
                                             l
                    通过领域隶属度、词语与领域主题的语义相关度分别明确了主题领域属性、词语与主题的语义相关性, 结合
                 公式  (9) 计算每层主题中主题词的领域代表性, 生成每层级领域主题的主题词分布.
                  3.5   模型的层次化采样
                    结合文档词语、主题的先验分布和             nCRP+分配过程, 改进各层级参数的          Gibbs 采样过程, 生成各层级参数的
                 后验概率分布. 由于各层级参数采样过程需要明确参数或其涉及变量对应的层级, 通过上标                              l 表示参数或变量所
                                                       t l
                 在的层级. 本节通过采样第        l 层的索引变量    t  和  k  , 生成第  l 层参数   θ  和  φ  .
                                                                          t l
                                                                      l
                                                   l
                                                                      ji
                                                       j
                                                                          j
                                                   ji
                                    t l
                               l   X  的条件概率
                    (1) 计算变量   x  和   j
                               ji
                                                                                               t l
                                                           l             t l               l  k  的采样. 结
                    在层次化采样过程中, 通过每层级中的单个词语                x  和单组词语集    X  的采样实现索引变量       t  和
                                                           ji            j                 ji  j
                 合文献   [12] 定义   x  和  X  的条件概率, 如公式  (13) 和公式  (14) 所示.
                                   t l
                               l
                               ji   j
                                                        
                                                         n_klv[v]
                                                                   l
                                                               , k ∈ K l
                                                        
                                                             k l
                                                 −x l      |X |
                                                        
                                                   ji  l  
                                                f l (x ) =                                          (13)
                                                 k   ji    1
                                                        
                                                                  l  l
                                                            ,    k = k
                                                                     new
                                                          |X | l
                                                        ∏
                                                    k l   Γ(n_klv[v]+n_jtlv[v])
                                             
                                                 Γ(|X |)
                                                         v
                                                                             l  l
                                                                           , k ∈ K
                                                            ∏
                                                  k l  t l
                                              Γ(|X |+|X |)    Γ(n_klv[v])
                                             
                                      −X t l  t l     j      v
                                             
                                        j    
                                          j
                                     f l (X ) =          ∏    l                                     (14)
                                      k                    Γ(β +n_ jtlv[v])
                                             
                                                    l  l
                                                 Γ(|X |β )
                                                          v
                                                                             l  l
                                                                       ,    k = k
                                                             ∏
                                                       t l        l             new
                                              Γ(|X |β +|X |)   Γ(β )
                                                    l
                                                   l
                                             
                                                       j
                                                               v
                 其中, j 表示文档对应词语集       (或重新划分主题后的词语子集) 的编号, i 表示其中的词语编号,                  x  表示词语集    (或
                                                                                           l
                                                                                           ji
                                                                               l
                                                        l
                 词语子集) j 中第   i 个词语, 即餐厅   j 的第  i 个顾客. t 表示第  l 层的第  t 组词语, X 表示第   l 层中所有词语集合,      X k l
                              l
                                                                                             l
                 表示第   l 层主题  k 的词语集合. v 是采样过程中词语        x  对应的索引变量, n_klv[v] 表示第     l 层主题  k 中索引值为    v
                                                          l
                                                          ji
                                         X  中索引值为              β  表示第  l 层主题分布参数.
                                                               l
                                          t l
                 的词语数, n_jtlv[v] 表示词语集    j         v 的词语数,
                    (2) 采样  t l ji
                    在第  l 层的顾客-餐桌分配过程中, 索引变量          t  对应分配参数    θ  ,   A(x ,k ) 表示顾客选择已有餐桌的先验概率,
                                                                           t l
                                                       l
                                                                         l
                                                                    l
                                                                    ji
                                                       ji
                                                                         ji
                                                                           j
                  −x l
                                                                l
                 f l (x )  表示顾客的条件概率; 顾客选择新餐桌的先验概率为            α, 该顾客的条件概率结合公式        (12) 可表示为  p(   x  |  t  =
                                                                                                    l
                                                                                                      l
                     l
                   ji
                  k t  ji                                                                           ji  ji
                  j
   216   217   218   219   220   221   222   223   224   225   226