Page 312 - 《软件学报》2024年第4期
P. 312
1890 软件学报 2024 年第 35 卷第 4 期
S
T
S
T
S
Q S ,K S ,V S = H W ,H W ,H W T (10)
q k v
( ( ))
Q S K S T
S = Softmax f window √ V S (11)
d k
1 ···
a 1 a 2 a N−1
1
a 1 a 1 ··· a N−2
1
f window (·) = a 2 a 1 ··· a N−3 (12)
. . . . .
. . . . .
. . . . .
a N−1 a N−2 a N−3 ··· 1
N×N
函数 f window (·) 表示一个用于计算注意力权重的 mask 矩阵, 其中 a i = 1,a j = 0 当且仅当 i ∈ {1,...,δ} j , i , 其表
;
示一段序列中的一个词节点根据窗口大小 δ 对其相邻上下文节点产生的关注, 则针对窗口外的节点不产生关注,
即 mask 矩阵掩盖掉当前节点所不关注的节点权重, 再进行 Softmax 操作. 多头注意力允许模型共同关注来自不同
位置的不同表示子空间的信息 [12] . 同样, 我们采用多头注意力机制来达到更好的拟合效果. 更新后的槽位填充词
级表示特征 S = {S 1 ,...,S n } ∈ R n×d emb 用于异构结构中部分迭代更新.
(2) 异构交互单元
图注意力网络是图神经网络的一种变体, 它被提出来学习节点与其邻居之间的重要性并融合邻居来进行节点
分类. 在这里, 我们介绍了前面提到的词级自注意力机制, 它可以学习基于路径的邻居对异构结构中每个节点的重
要性, 并将这些有意义的邻居的表示整合起来形成节点嵌入.
˜
˜
˜ H = {h 1 ,...,h n } h i ∈ R 被定义为图注意力网络的初始输
˜
F
传统图注意力网络. 对于一个有 n 个节点的图结构, ,
˜ H = {h ,...,h } h ∈ R F ′ . 在节点嵌入表示上操作的图注意
′
˜ ′
˜ ′
˜ ′
入始节点, 经过一层的信息交互更新后单层节点输出为 ,
1 n i
力机制可以表示为:
K ∑
˜ ′ k k ˜ (13)
h = ∥ σ α W h j
i ij h
k=1
j∈N i
( ( [ ]))
T ˜ ˜
exp LeakyReLU a W h h i ∥ W h h j
(14)
α ij = ∑ ( ( [ ]))
T ˜ ˜
exp LeakyReLU a W h h i ∥ W h h k
k∈N i
i
其中, σ 表示激活函数 (例如: Sigmoid 函数), ∥ 表示连接操作; K 表示多头注意力头的数量; N i 表示节点 的邻居
节点域 (包括节点自身); W h ∈ R F ′ ×F 是可训练权重矩阵; a ∈ R 2F ′ 是可训练节点级注意力向量, 权重系数 α ij 是非对
i 节点的基于路径的嵌入向量, 可以通过其邻居的投影特征聚
称的, 这意味着两个节点之间对彼此的关注度不同.
˜ ′
合为 h . 因为公式中分子拼接的序列不同, 以及它们有不同的相邻节点, 这个分母标准化项将会不同.
i
按照带窗口机制的自注意力单元的形式, 我们将图注意力网络和自注意力机制合并到异构结构中以整合不同
的粒度信息, 并相互迭代更新. 如图 2 所示, 槽位填充任务的词级节点表示是利用 (1) 中提出的带窗口的自注意力
机制和与之相连的意图节点通过自适应学习得到的, 意图节点嵌入表示也在同一个异构图中进行交互更新. 具体
ˆ I 连接, 来自第
ˆ I
来说, 我们构造每个槽节点与意图标签表示 2 级意图解码器. 这使框架能够对跨槽依赖进行建模,
从而缓解不协调的槽位问题. 我们通过以下方式构建图 G = (V,E) .
n 是话语
顶点 V : 当我们对槽和意图标记之间的交互信息进行建模时, 我们在异构图中有 n+m 个节点, 其中
的单词序列长度, m = |I label | 是意图标签的数量. 意图标签嵌入表示和槽嵌入表示可以分别抽象地理解为句级信息
和词级信息的特征.
E : 我们所提出的异构单元由 3 种类型的边组成.
边
(1) 由于意图检测和槽位填充任务高度相关, 我们连接意图节点 I i 和 x i 的槽节点以进行两个任务的信息交互.
具体来说, 每个槽节点连接所有意图标签节点以自适应地捕获相关意图信息.