Page 217 - 《软件学报》2024年第4期
P. 217
万常选 等: 主题方面共享的领域主题层次模型 1795
风格的餐厅中菜肴类别的统一分配, 即在餐厅菜肴风格明确的前提下, 进一步确定餐桌分配菜肴的菜肴类别, 用于
在不同菜肴风格的餐厅中实现菜肴类别的共享. 为了描述这种分层次的共享机制, 需要在每个层级中增加相应的
共享基分布, 其中上层 CRF 通过餐桌-菜肴 CRP 过程实现, 下层 CRF 则通过在其下的每一个餐桌-菜肴 CRP 中共
享相同的基分布. 为了描述同一层级不同 CRF 中的共享机制, 图 2 中用灰色背景表示下层 CRF 的基分布共享区域.
顾客-餐桌 CRP
…
上层
CRF
餐桌-菜肴CRP 1 2 3 …
下层CRF
11 12 … 21 … 31 32 …
餐桌-菜肴 CRP 餐桌-菜肴 CRP 餐桌-菜肴 CRP
…
… … …
…
图 2 nCRP+层次构造方法的框架
利用上述 nCRP+层次构造方法生成的三层树形结构如图 3 所示, 其中, 树根节点 (黑色实心圆) 及其第 1 层节
点 (节点 1, 2, 3) 是通过图 2 中上层 CRF 过程构造得到, 且这些节点分布是共享第 1 层基分布的. 在第 1 层节点分
布的基础上, 通过图 2 中下层 CRF 生成第 2 层节点, 目的是为第 1 层的节点生成其在第 2 层的子节点, 且这些子
节点是共享第 2 层基分布的. 因此, nCRP+层次构造方法包含了两方面关系的构建. 一方面, 利用上层节点分布, 通
过嵌套调用 CRF 构造方法生成下层子节点分布, 形成节点之间的层次结构, 描述节点之间的隶属关系; 另一方面,
通过分层级的基分布共享, 实现在同一层级不同节点中共享下层子节点的分布共性, 明确同一层级不同节点在下
层子节点之间的语义关联关系, 本文用相同颜色的圆表示主题方面共享的节点, 例如 1、2、3 节点下的 11、21、
31 子节点, 以及 1、3 节点下的 12 和 32 子节点.
根节点
1 2 3 ...
11 12 ... 21 ... 31 32 ...
图 3 nCRP+层次构造方法对应的三层树形结构
2.2 rHDP 层次主题模型
nCRP+构造方法改变了主题层次结构的生成机制, 结合 HDP 主题模型的采样方法, 可重新定义主题与子主题
的父子关系, 以及同一层级主题下子主题的关联关系, 实现对文档主题层次的重新分层. 因此, 本文将基于 nCRP+
层次构造方法和 HDP 模型构建的层次主题模型称为重分层的层次狄利克雷过程 (reallocated hierarchical Dirichlet
processes, rHDP), 模型中使用的符号说明见表 1.
将图 2 中的两层 CRF 结构扩展为多层 CRF, rHDP 模型可构建主题的多层结构. 将每个 CRF 过程对应成一个
两层 DP 过程, 即上层 DP 过程和下层 DP 过程. 结合表 1 中的符号, 定义第 l 层 CRF 的抽样过程. 通过上层 DP 过
程抽样产生第 l 层节点的全局随机概率测度, 表示为 G ; 通过下层 DP 过程抽样产生词语集合 j 的随机概率测度,
l
0
l
l
表示为 G , 则第 l 层 CRF 对应的双层 DP 过程如公式 (1) 所示. 对于第 l 层的所有 CRF 过程, 基分布 H 是共享的.
j
l
l
l
l
l
G | γ ,H ∼ DP(γ ,H )
0 (1)
l l l l l
G | α ,G ∼ DP(α ,G )
j 0 0
在 nCRP+层次构造方法中, 当 l=1 时, 通过公式 (1) 定义的基分布和超参数, 调用 1 次 CRF 分配过程生成第 0