Page 222 - 《软件学报》2024年第4期
P. 222

1800                                                       软件学报  2024  年第  35  卷第  4  期


                         l
                 t l   ,   t  l,−ji  , k ), 如公式  (15) 所示.   t  的后验概率如公式  (16) 所示.
                                          l
                 new                      ji
                                                     ∑     A k l  −x l     γ l   −x l
                                                  l
                                        l
                                      l
                                                                                    l
                                                                     l
                                   p(x | t = t  l  ,t  l,−ji ,k ) =  ∑  j  f l (x )+ ∑  f l (x )     (15)
                                                                  ji
                                                                                  ji
                                      ji  ji  new           k l  l  k t  ji  k l  l  k new  ji
                                                     k l ∈K l  A +γ  j     A +γ
                                                                            j
                                                            j
                                                        k l ∈K l        k l ∈K l
                                                                −x l
                                                              t l
                                                        A(x ,k ) f l (x ),  t ∈ T  l
                                                                            l
                                                            l
                                                                  ji
                                                                    l
                                                       
                                                           ji  j  k t  ji     j
                                                       
                                                  l
                                                       
                                             l
                                         l
                                                     l
                                       p(t = t | t  l,−ji ,k ,X ) ∝   j                             (16)
                                         ji            
                                                       
                                                         l  l  l  l  l,− ji  l  l  l
                                                         α p(x |t = t  ,t  ,k ), t = t
                                                             ji  ji  new       new
                    当顾客选择就座于新餐桌时, 根据           nCRP+层次构造方法的餐桌-菜肴分配过程, 该餐桌分配到已有菜肴的概率
                                                                                                      l
                                                   l
                 与相同菜肴风格的餐厅中供应该已有菜肴               k 的餐桌数成正比, 或与餐桌中供应相同菜肴类别的该已有菜肴                     k 的
                                                     l
                 餐桌数成正比, 分配到新菜肴的概率与超参数              γ 成正比, 该新餐桌分配菜肴的概率如公式             (17) 所示.
                                                                −x l
                                                              k l  ji  l  l  l
                                                             A f l (x ), k ∈ K
                                                            
                                              t l     l,−t l    j  k  ji
                                                            
                                                  l
                                                    l
                                           p(k  new  = k | t ,k  new  ) ∝                           (17)
                                              j       j        −x l
                                                               l
                                                             γ f l (x ), k = k l
                                                            
                                                                 ji
                                                                        l
                                                                   l
                                                            
                                                                k new  ji  new
                           k t l
                    (3) 采样   j
                                                                                           t l
                             t l
                            k  对应第                     t l        l                       X  的条件概率, 计
                    索引变量     j      l 层餐桌-菜肴分配参数      φ  , 为了适应  t  更新对菜肴分配的影响, 结合         j
                                                        j
                                                                  ji
                                                                                        t l
                    t l
                 算  k  的后验概率. 在第    l 层餐桌-菜肴分配过程中, 餐桌分配已有菜肴的先验概率为                  A k l   ,   X  的条件概率表示为
                    j                                                                j  j
                  −X t l  t l                           t l              −X t l  t l  t l
                                                                          j
                   j
                                                 l
                                                                               ,
                 f l (X )  ; 餐桌分配新菜肴的先验概率为      γ  , 此时   X  的条件概率表示为   f l (X ) k  的后验概率如公式    (18) 所示.
                  k   j                                 j               k new  j  j
                                                          
                                                            k l  −X t l  t l
                                                                 j
                                                                       l
                                                           A f l (X ), k ∈ K l
                                                          
                                                          
                                                                   j
                                                             j
                                                          
                                              t l
                                                    l
                                                          
                                                  l
                                            p(k = k | t ,k l,−t l  ) ∝   k                          (18)
                                              j
                                                      j
                                                          
                                                              −X t l
                                                                  t l
                                                           γ f l (X ), k = k l
                                                                j
                                                             l
                                                                       l
                                                          
                                                              k new  j    new
                  3.6   领域主题层次自动挖掘算法
                    结合领域知识和层次化采样构建每层              CRF  中文档-主题    (或词语子集-主题) 和主题-词语分布参数            φ  和  θ  ,
                                                                                                   t l
                                                                                                       l
                                                                                                   j
                                                                                                       ji
                 利用这些参数自动构建领域主题层次和抽取领域主题词. 基于这种主题层次生成思想, 本文提出一种领域主题层
                 次自动挖掘算法, 如算法       1  所示.
                 算法  1. 领域主题层次自动挖掘算法         DomainTopicHierarchy.
                 输入: 领域文档集     X, 模型各层级超参数      α 、β 和 l  γ , 参数  λ 和语义相似度阈值  ξ, 领域类别及其代表性词语集        S, 主
                                                       l
                                                 l
                 题层级   L;
                 输出: 领域主题层次及其主题词.
                 1. l=1;
                 2. WHILE (l<L)  / * 采样第  l 层的索引变量  t  和  k  , 生成第  l 层的分布参数  θ  和  φ  * /
                                                      t l
                                                                                t l
                                                                           l
                                                  l
                                                                           ji
                                                                                j
                                                   ji
                                                       j
                                         X ∈ X   DO
                                              l
                                           l
                 3.  FOR 每个文档或词语子集         j
                                   l
                                       l
                                  x ∈ X   DO
                 4.   FOR 每个词语     ji  j
                                                             t l
                 5.    按公式    (8) 计算词语与主题的语义相似度         A(x ,k ) , 明确顾客-餐桌分配先验;
                                                           l
                                                             j
                                                           ji
                                 t l
                               l
                                               l
                                                              l
                 6.    结合   A(x ,k ) 和公式  (16) 为   x  分配餐桌, 索引为  t  ;
                               ji  j           ji              ji
                           l
                 7.    IF   t = t l    THEN
                           ji  new
                 8.      按公式    (11) 计算文档或词语子集      j 的领域隶属度    A  , 明确餐桌-菜肴分配先验;
                                                                 k l
                                                                  j
                              A  和公式                           k t l new  ;
                               k l
                 9.      结合           (17) 为新餐桌分配菜肴, 索引为
                               j                                j
                             t l  l
                 10.    IF   k  new  = k    THEN
                              j   new
                                 l
                 11.      结合     γ 和公式  (13) 为餐桌分配新菜肴;
   217   218   219   220   221   222   223   224   225   226   227