Page 313 - 《软件学报》2024年第4期
P. 313
张启辰 等: 一种基于窗口机制的口语理解异构图网络 1891
(2) 我们互连意图标签节点并对每个意图标签之间的关系进行建模, 以了解彼此的语义级信息.
(3) 对于槽之间的连接, 我们应用了带有窗口机制的自注意力单元以进行槽节点之间的相互信息交互, 同时可
以将其视为一种抽象边 (如图 2 中异构交互注意力层虚线所示).
通过这样, 我们在一个统一的框架中对意图和槽位信息进行显式建模. 意图标签节点的输入嵌入表示为
ˆ I = { ˆ I 1 ,..., ˆ I m } 是由第 2 级意图解码器生成的, 词级节点的输入嵌入表示为 H = {h ,...,h } . 交互信息过程形式化为:
S
S
S
1 n
( k T
)
S
k
S
K ∑ h W H W ( )
′ k k i q k S k
(15)
S = || σ α W ˆ I j +Softmax f window √ H W
i ij g v
k=1 d
j∈D S
K ∑ ∑
′ k k k k S
I = ∥ σ α W ˆ I j + α W h (16)
i
i j
g
ij
g
j
k=1
j∈D I j∈D S
其中, 公式 (15) 中的 α 表示槽节点 h 对意图节点 ˆ I j 的注意力权重, 与之类似的, 公式 (16) 中的 α 表示意图节点
k
k
S
ij i ij
k
S α 均满足公式 (14) 的表现形式. 同时, 公式 (15) 中的自注意力
ˆ I i 对意图节点 ˆ I j 和槽位节点 h 的注意力权重, 以上
j ij
∑ ∑
k
S
k ˆ α W g h 是用于合并语义级和词级交互信息
算法为本节中提出的带有窗口机制的自注意力算法; α W g I j 和 i j j
ij
j∈D S j∈D I
的跨任务连接; 域 D I 和 D S 是表示意图标签节点和词级槽节点之间的连接边的顶点集合域, 其满足构造图中边 E
的 3 种连接形式. K 表示多头注意力头的数量. S = {S ,...,S } ∈ R n×d ′ 和 I = {I ,...,I } ∈ R m×d ′ 代表是迭代更新后
′
′
′
′
′
′
1 n 1 m
的词级槽位和意图标签信息嵌入表示.
3.4 意图感知槽填充解码器
根据以上, 我们得到更新的节点信息, 其中每个槽节点已经包含了每个意图标签的特征. 为了实现更精确的槽
¯ I , 并经过一系列操作选取最
位填充效果, 我们设置了本单元来利用两级意图解码器中每个单词的抽象意图表征
有可能的意图标签, 并利用该意图信息来指导当前话语的最终槽位填充任务, 形式如下:
m
∑ [ ( ) ]
I
p = max 1 σ ¯ I (i,k) > 0.5 (17)
i
k=1
{ } ( )
O = ˆ I p , ˆ S 1 ,..., ˆ S n = Transformer I p ∥ S ′ (18)
I ¯ I I p 表示为
其中, p 表示 经过变换后按维度相加并选择最大值作为学习到的意图嵌入特征表示的索引, 即
i
′ ′ ′ I Transformer(·) 表示自注意力机制对预测意图和槽节点嵌入拼接
I = {I ,...,I } 中索引为 p 的意图标签嵌入表示.
1 m i
形式的最终解码 (形式上与带有窗口机制的自注意力算法一致, 窗口大小为 δ ), ˆ S = { ˆ S 1 ,..., ˆ S n } 是最终的槽位嵌入
′
表示, 用作槽位填充任务预测. 我们应用标准条件随机场层 [4] 来解码槽标签:
ˆ
O s = W S S i +b S (19)
∑
exp f (y i−1 ,y i ,O s )
S i=1
y = ∑ ∑ (20)
( )
′ ′
exp f y ,y ,O s
i
i−1
y ′ i=1
y 是预
S
根据上述公式, W S 为可训练矩阵, b S 为偏执向量; f(y i−1 ,y i ,O s ) 是计算从 y i−1 到 y i 的转换分数的函数,
测的槽位填充标签序列.
3.5 联合训练
我们的模型经过训练以最小化意图检测和槽位填充的最终联合负对数似然目标函数. 其中意图检测和槽位填
充目标损失函数如下:
n ∑ m ∑
( )
i,I
L 1 ≜ − ˆ y log y i,I (21)
j j
j=1 i=1
T
n ∑∑
( )
i,S
L 2 ≜ − ˆ y log y i,S (22)
j
j
j=1 i=1