Page 311 - 《软件学报》2024年第4期
P. 311
张启辰 等: 一种基于窗口机制的口语理解异构图网络 1889
E = A ∥ H = {e 1 ,e 2 ,...,e n } (3)
E ∈ R n×2d
其中, , 并且 ∥ 表示连接操作.
3.2 两级意图解码器
在本节中, 我们执行两级意图解码器, 其中首级解码器用作最终的意图检测任务, 末级解码器用作生成意图标
签的嵌入表示, 其可以更好地利用先验知识指导意图标签嵌入表示的生成. 准确对每个意图标签进行特征抽取使
E 输入到意图感
得槽位信息可以充分利用意图信息进行交互学习. 我们首先将在上一节中获得的上下文编码表示
知 BiLSTM 中, 以加强话语的任务特定表示:
( ) { }
I
I
I
I
h = BiLSTM h ,h ,e i , H = h ,...,h ∈ R n×d (4)
I
I
i i−1 i+1 1 n
(1) 首级意图解码器
I
本阶段, 我们执行的是词级意图检测, 即在每个词的基础上预测当前话语的意图. h 被作为首级意图解码器
i
I i 上执行了最大池化操作 [34] ˜ I i , 形式如下:
的输入, 并且我们在 以获得话语表示
( )
I
I i = LeakyReLU W L h +b L (5)
i
( )
I ˜
y = Softmax W I I i +b I (6)
i
(
其中, I i I = {I 1 ,...,I n } ∈ R n×d ) 表示第 i 个单词的意图预测向量, 其将用作末级意图解码器的输入, 以生成所有意图标
I
签的嵌入表示. y 是每个单词的意图输出分布, 用于计算最终损失函数; W I 和 W L 是可训练矩阵, b I 和 b L 是偏差向量.
i
(2) 末级意图解码器
我们的目标是利用第 1 阶段生成的表示来创建意图标签嵌入以指导槽位填充任务. 单纯的随机初始化意图标
签的嵌入表示再用于后续的预测任务是次优的, 因为其丢失了首级意图解码阶段针对意图预测的特定语义表示.
因此为了获得更丰富和鲁棒性的意图标签嵌入表征, 我们将第 1 阶段的词级意图输出进行一定变换操作以获得每
个意图标签的特征信息, 其形式上:
′
¯ I = W I +b ′ (7)
L L
( )
( ) T
′
ˆ I = W tanh ¯ I +b ′ (8)
I I
ˆ I ∈ R |I label |×d emb W ∈ R n×d emb W ∈ R d×|I label | 是可训练
′
′
其中, 我们使用 来表示意图嵌入, 并且 |I label | 表示意图标签的数目; I 和 L
线性变换矩阵. 这意味着我们使用先验知识来表示每个意图标签. 由于意图标签的表示是通过第 1 阶段意图预测
向量计算出来的, 它不是随机生成的, 故可以整合更丰富的意图标签编码信息. 因此, 第 2 阶段意图标签表示可以
更准确地指导槽位填充任务.
3.3 异构交互注意力层
该部分是我们提出模型的核心. 由于意图检测是句子级的分类任务, 而槽位填充是词级的序列标注任务, 因此
这两个高度相关的任务具有不同的粒度信息. 异构交互注意力层采用自注意力机制和图注意力网络的联合形式,
将意图表示和槽位词级嵌入表示输入到协同交互学习的统一框架中. 在这种结构中, 意图检测和槽位填充任务分
别表征不同的语义, 代表句级语义特征和词级特征. 得益于这种注意力结构, 该框架可以同时考虑节点和路径的重
要性. 同时, 我们利用窗口机制进行词级表示, 以更好地处理话语中的局部特征并降低模型复杂度. 下面, 我们依次
描述带窗口机制的自注意力单元以及异构交互单元.
与第 3.2 节中的意图感知 BiLSTM 一致, 我们仍然使用 BiLSTM 来生成槽感知隐藏嵌入表示:
( ) { }
S
S
S
S
S
h = BiLSTM h ,h ,e i , H = h ,...,h S n ∈ R n×d (9)
i+1
i−1
i
1
(1) 带有窗口机制的自注意力单元
H 用作
S
具有窗口机制的自注意力单元用于捕获每个单词的任务特定语义信息, 并充分利用槽信息的局部性.
自注意力单元的输入, 以获得跨槽之间的依赖关系. 在窗口机制中, 窗口大小为定义为 δ , 表示可以关注当前隐藏
节点的前序或后序相邻隐藏节点的数量, 词级节点基于自注意力单元进行更新: