Page 217 - 《软件学报》2024年第4期
P. 217

万常选 等: 主题方面共享的领域主题层次模型                                                          1795


                 风格的餐厅中菜肴类别的统一分配, 即在餐厅菜肴风格明确的前提下, 进一步确定餐桌分配菜肴的菜肴类别, 用于
                 在不同菜肴风格的餐厅中实现菜肴类别的共享. 为了描述这种分层次的共享机制, 需要在每个层级中增加相应的
                 共享基分布, 其中上层      CRF  通过餐桌-菜肴    CRP  过程实现, 下层   CRF  则通过在其下的每一个餐桌-菜肴           CRP  中共
                 享相同的基分布. 为了描述同一层级不同            CRF  中的共享机制, 图    2 中用灰色背景表示下层        CRF  的基分布共享区域.

                                               顾客-餐桌 CRP
                                                                            …
                                           上层
                                           CRF
                                              餐桌-菜肴CRP   1   2   3 …
                                           下层CRF
                                            11  12  …   21     …    31  32  …
                                            餐桌-菜肴 CRP  餐桌-菜肴 CRP   餐桌-菜肴 CRP
                                                                 …
                                               …           …          …


                                                           …
                                               图 2 nCRP+层次构造方法的框架

                    利用上述    nCRP+层次构造方法生成的三层树形结构如图               3  所示, 其中, 树根节点   (黑色实心圆) 及其第     1  层节
                 点  (节点  1, 2, 3) 是通过图  2  中上层  CRF  过程构造得到, 且这些节点分布是共享第        1  层基分布的. 在第    1  层节点分
                 布的基础上, 通过图      2  中下层  CRF  生成第  2  层节点, 目的是为第   1  层的节点生成其在第       2  层的子节点, 且这些子
                 节点是共享第     2  层基分布的. 因此, nCRP+层次构造方法包含了两方面关系的构建. 一方面, 利用上层节点分布, 通
                 过嵌套调用    CRF  构造方法生成下层子节点分布, 形成节点之间的层次结构, 描述节点之间的隶属关系; 另一方面,
                 通过分层级的基分布共享, 实现在同一层级不同节点中共享下层子节点的分布共性, 明确同一层级不同节点在下
                 层子节点之间的语义关联关系, 本文用相同颜色的圆表示主题方面共享的节点, 例如                           1、2、3  节点下的    11、21、
                 31  子节点, 以及  1、3  节点下的  12  和  32  子节点.

                                                                  根节点
                                               1          2          3        ...
                                           11  12  ...  21   ...  31  32  ...
                                          图 3 nCRP+层次构造方法对应的三层树形结构

                  2.2   rHDP  层次主题模型
                    nCRP+构造方法改变了主题层次结构的生成机制, 结合                HDP  主题模型的采样方法, 可重新定义主题与子主题
                 的父子关系, 以及同一层级主题下子主题的关联关系, 实现对文档主题层次的重新分层. 因此, 本文将基于                               nCRP+
                 层次构造方法和      HDP  模型构建的层次主题模型称为重分层的层次狄利克雷过程                    (reallocated hierarchical Dirichlet
                 processes, rHDP), 模型中使用的符号说明见表     1.
                    将图  2  中的两层  CRF  结构扩展为多层     CRF, rHDP  模型可构建主题的多层结构. 将每个          CRF  过程对应成一个
                 两层  DP  过程, 即上层  DP  过程和下层   DP  过程. 结合表   1  中的符号, 定义第   l 层  CRF  的抽样过程. 通过上层    DP  过
                 程抽样产生第     l 层节点的全局随机概率测度, 表示为           G  ; 通过下层  DP  过程抽样产生词语集合       j 的随机概率测度,
                                                           l
                                                           0
                                                                                               l
                        l
                 表示为  G  , 则第  l 层  CRF  对应的双层  DP  过程如公式  (1) 所示. 对于第  l 层的所有  CRF  过程, 基分布  H  是共享的.
                        j
                                                   
                                                         l
                                                           l
                                                                    l
                                                      l
                                                                 l
                                                   G | γ ,H ∼ DP(γ ,H )
                                                   
                                                     0                                               (1)
                                                     l  l  l     l  l
                                                    G | α ,G ∼ DP(α ,G )
                                                   
                                                      j    0        0
                    在  nCRP+层次构造方法中, 当      l=1  时, 通过公式  (1) 定义的基分布和超参数, 调用       1  次  CRF  分配过程生成第  0
   212   213   214   215   216   217   218   219   220   221   222