Page 221 - 《软件学报》2024年第4期
P. 221
万常选 等: 主题方面共享的领域主题层次模型 1799
l
座, 并由 G 采样生成新餐桌.
0
t l
l
∑ A(x ,k ) α l
j
ji
l
l
θ | θ ,θ ,...,θ l ,α ,G ∼ ∑ δ t l + ∑ G l (10)
l
l
l
ji j1 j2 j(i−1) 0 l t l l φ j l t l l 0
t l ∈T l A(x ,k )+α A(x ,k )+α
j
ji
ji
j
j
t l ∈T l t l ∈T l
j j
如果新顾客选择新餐桌就座, 则需要为新餐桌分配菜肴. 新餐桌可被分配到其所在餐厅中的已有菜肴 k , 其分
l
配概率或与相同菜肴风格的餐厅中供应该已有菜肴的餐桌数成正比, 或与供应该相同菜肴类别的已有菜肴的餐桌
数成正比; 结合公式 (7) 计算词语集的领域隶属度, 改进餐桌-菜肴分配过程, 即计算相同菜肴风格的餐厅中供应该
l
l
已有菜肴 k 的餐桌数, 或供应该相同菜肴类别的已有菜肴 k 的餐桌数, 记为 A k l j , 如公式 (11) 所示; 被分配新菜肴
l
的概率与超参数 γ 成正比, 第 l 层 CRF 的餐桌-菜肴分配过程的参数如公式 (12) 所示.
∑
k l ( )
A = I index j = index j ′ (11)
j
′ l l l ′ l
j , j,t ∈ T ,t ∈ T ′
j j
l
l
l
s.t. k = k ∧k ′ t l ′ = k l
jt l j
∑ A k l j γ l
t l
t l
t l
l
l
1
1
1
φ | φ ,...,φ ,φ ,...,φ ,...,φ ,...,φ t l −1 ,γ ,H ∼ ∑ k l δ k l + ∑ k l H l (12)
2
j
j
2
1
1
j
ϕ
k l ∈K l A +γ l A +γ l
j
j
k l ∈K l k l ∈K l
因此, 新餐桌可以分配与其所在餐厅的菜肴风格相同的餐厅中的已有菜肴, 或分配与已有餐桌供应菜肴的菜
肴类别相同的已有菜肴, 也可通过 H 分配新菜肴.
l
通过领域隶属度、词语与领域主题的语义相关度分别明确了主题领域属性、词语与主题的语义相关性, 结合
公式 (9) 计算每层主题中主题词的领域代表性, 生成每层级领域主题的主题词分布.
3.5 模型的层次化采样
结合文档词语、主题的先验分布和 nCRP+分配过程, 改进各层级参数的 Gibbs 采样过程, 生成各层级参数的
后验概率分布. 由于各层级参数采样过程需要明确参数或其涉及变量对应的层级, 通过上标 l 表示参数或变量所
t l
在的层级. 本节通过采样第 l 层的索引变量 t 和 k , 生成第 l 层参数 θ 和 φ .
t l
l
l
ji
j
j
ji
t l
l X 的条件概率
(1) 计算变量 x 和 j
ji
t l
l t l l k 的采样. 结
在层次化采样过程中, 通过每层级中的单个词语 x 和单组词语集 X 的采样实现索引变量 t 和
ji j ji j
合文献 [12] 定义 x 和 X 的条件概率, 如公式 (13) 和公式 (14) 所示.
t l
l
ji j
n_klv[v]
l
, k ∈ K l
k l
−x l |X |
ji l
f l (x ) = (13)
k ji 1
l l
, k = k
new
|X | l
∏
k l Γ(n_klv[v]+n_jtlv[v])
Γ(|X |)
v
l l
, k ∈ K
∏
k l t l
Γ(|X |+|X |) Γ(n_klv[v])
−X t l t l j v
j
j
f l (X ) = ∏ l (14)
k Γ(β +n_ jtlv[v])
l l
Γ(|X |β )
v
l l
, k = k
∏
t l l new
Γ(|X |β +|X |) Γ(β )
l
l
j
v
其中, j 表示文档对应词语集 (或重新划分主题后的词语子集) 的编号, i 表示其中的词语编号, x 表示词语集 (或
l
ji
l
l
词语子集) j 中第 i 个词语, 即餐厅 j 的第 i 个顾客. t 表示第 l 层的第 t 组词语, X 表示第 l 层中所有词语集合, X k l
l
l
表示第 l 层主题 k 的词语集合. v 是采样过程中词语 x 对应的索引变量, n_klv[v] 表示第 l 层主题 k 中索引值为 v
l
ji
X 中索引值为 β 表示第 l 层主题分布参数.
l
t l
的词语数, n_jtlv[v] 表示词语集 j v 的词语数,
(2) 采样 t l ji
在第 l 层的顾客-餐桌分配过程中, 索引变量 t 对应分配参数 θ , A(x ,k ) 表示顾客选择已有餐桌的先验概率,
t l
l
l
l
ji
ji
ji
j
−x l
l
f l (x ) 表示顾客的条件概率; 顾客选择新餐桌的先验概率为 α, 该顾客的条件概率结合公式 (12) 可表示为 p( x | t =
l
l
l
ji
k t ji ji ji
j