Page 317 - 《软件学报》2024年第4期
P. 317
张启辰 等: 一种基于窗口机制的口语理解异构图网络 1895
(4) 意图感知槽填充解码器消融实验
为了验证意图感知槽填充解码器的有效性, 我们移除了这个解码器, 而是直接将异构单元的词级槽嵌入表示
用于最终的槽位填充预测任务. 在表 2 中, 我们可以观察到 ATIS 和 SNIPS 数据集的整体准确率显著下降了
1.12% 和 1.06%, 这证明了意图感知槽填充解码器的重要性和有效性. 我们认为这是因为每个词级槽节点集成了
所有意图标签, 并没有真正发挥预测意图的引导作用, 导致过度关注一些对最终槽位填充预测有副作用的意图节
点. 这表明该组件充分且没有过度利用最终意图检测的信息来执行槽位填充任务, 同时最终的自注意力机制可以
更好捕捉应用于最终任务的槽位信息, 可以提高口语理解性能.
4.6 多组件消融实验与分析
在第 4.5 节中, 我们依次剔除了 HcoSG 中的各个关键组件, 已验证了单一组件的有效性. 在本节中, 我们将进
一步进行多组件的消融实验, 实验过程我们将移除多个核心组件, 其旨在探究各个组件之间的相互作用和其性能
的提升是否重叠.
(1) FSD+Self Attention/FSD+GAT
针对本部分的多组件消融实验, 我们仅保留了模型中两级意图解码器中的第 1 级解码器 (first-stage decoder,
FSD), 意图节点信息采用随机初始化的形式, 同时我们仍将异构交互注意力层中的异构结构替换为同构结构,
并且取消意图感知槽填充解码器. 如表 3 所示, FSD+Self Attention 指模型中仅包含第 1 级意图解码器和自注意
力同构结构, 该同构结构的输入形式依旧是所有意图标签嵌入和话语单词嵌入的拼接形式. 相同地, FSD+GAT
中的同构结构使用图注意力网络. 结果所示, 3 个指标均有显著的下降. 我们认为在这样的设置中, 随机初始化
意图嵌入信息不是最优的, 针对该模型而言, 意图信息的随机初始化的不确定性和不准确性会直接影响槽位单
词嵌入表示的学习, 导致其学习到过多无用的信息. 同时在槽位填充任务的学习过程中, 意图节点信息会不断优
化更新, 但是其并未直接影响到意图的预测, 这导致了这两个任务并未完全准确地进行交互学习. 针对 ID 和 SF
任务, 同第 4.5 节结论一致, 异构结构信息可以自适应地捕获不同类型和不同粒度的节点信息, 因为异构结构模
式限定了对象集合以及对象间关系的类型约束, 这些约束使得异构信息网络具有半结构化的特点, 引导着意图
语义和话语单词语义之间的知识共享. 本文在异构结构中设置的 3 种类型的边, 其链接的异质性考虑了不同对
象之间的类型关系, 并建模它们的交互过程. 意图感知槽填充解码器具有遴选预测意图和加强特定意图下槽位
填充任务的作用, 使得槽位词嵌入信息与最准确的意图进行交互实现最终的槽位值预测. 综上, 我们的模型中的
核心组件两级意图解码器、异构交互注意力结构和意图感知槽填充解码器发挥着其各自的作用并提升模型的
整体性能, 分别执行基于先验知识的意图标签嵌入生成、不同粒度信息之间的建模交互和预测意图指导槽位信
息填充的作用.
表 3 多组件消融实验 (%)
ATIS SNIPS
消融实验
Intent Acc Slot F1 Overall Acc Intent Acc Slot F1 Overall Acc
HcoSG 97.98 96.10 88.02 99.11 96.11 90.35
FSD+Self Attention 96.78 95.57 86.23 98.08 94.22 87.56
FSD+GAT 96.35 95.52 86.04 97.85 94.45 87.80
FSD+Intent-Aware SFD 95.93 95.42 85.81 97.69 93.87 86.63
(2) FSD+Intent-aware SFD
本部分我们直接采用第 1 节意图解码器 (FSD) 和意图感知槽填充解码器 (intent-aware slot filling decoder,
Intent-aware SFD) 来进行 ID 和 SF 任务的预测工作, 即第 1 级意图解码器进行话语整体意图的预测, 其选择预测
出的经过初始化的意图嵌入表示进行最终槽位填充的指导. 结果如表 3 所示, 模型此时性能达到最低. 我们分析频
繁预测出的意图标签的嵌入表示可以多次在意图感知槽填充解码器中更新, 以达到相对准确的意图嵌入表示, 但
是很少被预测出的意图标签其嵌入表示接近其初始化表示, 其中并未包含丰富的语义信息并且含有大量噪声, 这