Page 218 - 《软件学报》2024年第4期
P. 218
1796 软件学报 2024 年第 35 卷第 4 期
层和第 1 层节点, 即生成第 0 层和第 1 层主题, 其中第 1 层的每个主题中包括来自不同文档的词语分组中的词语;
为了满足下层 CRF 过程对输入文档的要求, 将划分到该主题的词语分组按照其所在文档进行合并, 得到若干个词
语子集. 结合表 1 符号定义, 第 l–1 层的主题数可表示为 K , 并作为第 l 层 CRF 的输入参数. 因此, 当 l≥2 时,
l−1
第 l 层的 CRF 通过调用 K 次两层 DP 过程生成第 l 层中每一个词语子集的主题分布.
l−1
表 1 rHDP 层次主题模型符号说明
符号 说明 符号 说明
l 符号所处的层次 t ji j 餐厅顾客 i 所坐的餐桌
全局随机概率测度 j 餐厅中已分配顾客的餐桌集合
G 0 T j
文档 (词语子集) j 的随机概率测度 t j 餐厅中就座餐桌 t 的顾客集合
G j X
j
H 上层DP的基分布 θ ji j 餐厅中顾客 x ji 的餐桌分配参数
γ 上层DP的超参数 φ t ji j j 餐厅中餐桌 t ji 的菜肴分配参数
α 下层DP的超参数 Φ 菜单中的菜肴集合
β 主题-词语分布的超参数 ϕ k 菜肴 k 的分布参数
J 所有餐厅的集合 T k 供应菜肴 k 的餐桌集合
j 单个餐厅编号 K 所有餐桌已供应的菜肴集合
j 餐厅中的第 i 个顾客 顾客就座餐厅 j 中餐桌 t 的概率分布参数
x ji δ φ t
j
X 所有顾客集合 δ k 餐桌分配菜肴 k 的概率分布参数
ϕ
{ }
通过每个层级中的两层 DP 过程生成文档 (或词语子集) 的主题分布. 假设 θ ,θ ,...,θ l 是服从 G 的独立同
l
l
l
j1 j2 ji j
l
分布的随机变量序列, 该序列的先验分布来源于基分布 H , 此时 θ 对应词语 x 的主题分布参数, F(θ ) 表示在给
l
l
l
ji ji ji
l
l x 的主题分布, 如公式
定参数 θ 下词语 (2) 所示.
ji ji
l
θ | G l
ji j
(2)
l
l
l
x | θ ∼ F(θ )
ji ji ji
l
l
对于第 l 层的每个 CRF 分配过程, 统计餐厅 j 中餐桌 t 的顾客数和供应菜肴 k 的餐桌数, 分别记为 X 和
t l
j
T . 在新顾客分配餐桌时, 被分配到已有餐桌的概率与该餐桌已有顾客数成正比, 被分配到新餐桌的概率与该层
k l
l
参数 α 成正比, 顾客-餐桌的分配过程如公式 (3) 所示. 在新餐桌分配菜肴时, 被分配到已有菜肴的概率与该菜肴
l
供应的餐桌数成正比, 被分配到新菜肴的概率与该层参数 γ 成正比, 餐桌-菜肴分配过程如公式 (4) 所示.
t l
∑ |X | α l
l
l
l
l
l
θ | θ ,θ ,...,θ l ,α ,G ∼ j δ t l + G l (3)
ji j1 j2 j(i−1) 0 i−1+α l φ j i−1+α l 0
t l ∈T l
j
k l
∑ |T | γ l
t l
t l
t l
1
l
φ | φ ,...,φ ,φ ,...,φ ,...,φ ,...,φ t l −1 ,γ ,H ∼ δ k l + H l (4)
l
1
1
k l
k l
j 1 1 2 2 j j |T |+γ l ϕ |T |+γ l
k l ∈K l
每层级 CRF 分配过程对应每层级节点的主题分配以及主题词的抽取; 多层 CRF 分配过程则对应多层主题关
系的构建及其主题词的抽取. 通过采样和后验概率推导构造 rHDP 层次主题模型, 为每一篇文档生成层次化的主
题分布以及主题-词语分布.
3 结合领域知识的 rHDP 层次主题模型
为了获取领域主题的层次关系、关联关系以及关联子主题的差异性, 基于领域知识改进 rHDP 层次主题模型,
构建结合领域知识的 rHDP 层次主题模型 (rHDP with domain knowledge, rHDP_DK).
以构建经济指标的 3 层主题树形结构为例, 如前文图 1 所示, 假设顾客对应词语、菜肴对应主题, 餐厅对应文
档, 文档的表现形式是词语集. 将 nCRP+构造方法应用到财经文本中, 第 1 层 CRF 中的餐厅对应财经文本的词语
集, 餐厅的菜肴风格对应财经文本的经济领域大类属性, 即对应一级经济指标的主题属性; 第 2 层 CRF 中的餐厅