Page 222 - 《软件学报》2024年第4期
P. 222
1800 软件学报 2024 年第 35 卷第 4 期
l
t l , t l,−ji , k ), 如公式 (15) 所示. t 的后验概率如公式 (16) 所示.
l
new ji
∑ A k l −x l γ l −x l
l
l
l
l
l
p(x | t = t l ,t l,−ji ,k ) = ∑ j f l (x )+ ∑ f l (x ) (15)
ji
ji
ji ji new k l l k t ji k l l k new ji
k l ∈K l A +γ j A +γ
j
j
k l ∈K l k l ∈K l
−x l
t l
A(x ,k ) f l (x ), t ∈ T l
l
l
ji
l
ji j k t ji j
l
l
l
l
p(t = t | t l,−ji ,k ,X ) ∝ j (16)
ji
l l l l l,− ji l l l
α p(x |t = t ,t ,k ), t = t
ji ji new new
当顾客选择就座于新餐桌时, 根据 nCRP+层次构造方法的餐桌-菜肴分配过程, 该餐桌分配到已有菜肴的概率
l
l
与相同菜肴风格的餐厅中供应该已有菜肴 k 的餐桌数成正比, 或与餐桌中供应相同菜肴类别的该已有菜肴 k 的
l
餐桌数成正比, 分配到新菜肴的概率与超参数 γ 成正比, 该新餐桌分配菜肴的概率如公式 (17) 所示.
−x l
k l ji l l l
A f l (x ), k ∈ K
t l l,−t l j k ji
l
l
p(k new = k | t ,k new ) ∝ (17)
j j −x l
l
γ f l (x ), k = k l
ji
l
l
k new ji new
k t l
(3) 采样 j
t l
t l
k 对应第 t l l X 的条件概率, 计
索引变量 j l 层餐桌-菜肴分配参数 φ , 为了适应 t 更新对菜肴分配的影响, 结合 j
j
ji
t l
t l
算 k 的后验概率. 在第 l 层餐桌-菜肴分配过程中, 餐桌分配已有菜肴的先验概率为 A k l , X 的条件概率表示为
j j j
−X t l t l t l −X t l t l t l
j
j
l
,
f l (X ) ; 餐桌分配新菜肴的先验概率为 γ , 此时 X 的条件概率表示为 f l (X ) k 的后验概率如公式 (18) 所示.
k j j k new j j
k l −X t l t l
j
l
A f l (X ), k ∈ K l
j
j
t l
l
l
p(k = k | t ,k l,−t l ) ∝ k (18)
j
j
−X t l
t l
γ f l (X ), k = k l
j
l
l
k new j new
3.6 领域主题层次自动挖掘算法
结合领域知识和层次化采样构建每层 CRF 中文档-主题 (或词语子集-主题) 和主题-词语分布参数 φ 和 θ ,
t l
l
j
ji
利用这些参数自动构建领域主题层次和抽取领域主题词. 基于这种主题层次生成思想, 本文提出一种领域主题层
次自动挖掘算法, 如算法 1 所示.
算法 1. 领域主题层次自动挖掘算法 DomainTopicHierarchy.
输入: 领域文档集 X, 模型各层级超参数 α 、β 和 l γ , 参数 λ 和语义相似度阈值 ξ, 领域类别及其代表性词语集 S, 主
l
l
题层级 L;
输出: 领域主题层次及其主题词.
1. l=1;
2. WHILE (l<L) / * 采样第 l 层的索引变量 t 和 k , 生成第 l 层的分布参数 θ 和 φ * /
t l
t l
l
l
ji
j
ji
j
X ∈ X DO
l
l
3. FOR 每个文档或词语子集 j
l
l
x ∈ X DO
4. FOR 每个词语 ji j
t l
5. 按公式 (8) 计算词语与主题的语义相似度 A(x ,k ) , 明确顾客-餐桌分配先验;
l
j
ji
t l
l
l
l
6. 结合 A(x ,k ) 和公式 (16) 为 x 分配餐桌, 索引为 t ;
ji j ji ji
l
7. IF t = t l THEN
ji new
8. 按公式 (11) 计算文档或词语子集 j 的领域隶属度 A , 明确餐桌-菜肴分配先验;
k l
j
A 和公式 k t l new ;
k l
9. 结合 (17) 为新餐桌分配菜肴, 索引为
j j
t l l
10. IF k new = k THEN
j new
l
11. 结合 γ 和公式 (13) 为餐桌分配新菜肴;