Page 309 - 《软件学报》2024年第4期
P. 309

张启辰 等: 一种基于窗口机制的口语理解异构图网络                                                       1887


                 用自注意力机制      (self-attention mechanism) 和图注意力网络  (graph attention network, GAT) 的联合形式来准确执行
                 意图检测和槽位填充任务         [12,13] . 图注意力网络  (GAT) 是一种新颖的卷积式图神经网络, 它是利用注意力机制来处
                 理仅包含一种类型的节点或连接的非异构图. 事实上, 现实世界的图通常带有多种类型的节点和边, 也被广泛称为
                 异构信息网络     (heterogeneous information network, HIN) [14] . 直观地说, 口语理解所构成的异构图中的  ID  和  SF  任
                 务之间的关系可以有不同的语义, 分别代表语义级和词级. 同时, 由于意图检测是句子级别的分类任务, 而槽位填
                 充任务是单词级别的分类任务, 意图检测相对于槽位填充是粗粒度的分类任务, 故这两个任务的表示信息具有不
                 同的特征. 因此, 独立任务中的注意力机制应该与交互任务区分开来. 简而言之, 我们将这两个任务联合起来作为
                 一个非自回归标签生成问题, 并且这两个任务相互迭代更新以摆脱不必要的时间依赖性. 与传统的自注意力机制
                 和图注意力网络不同, 我们的模型是包含不同类型节点和连接的异构图结构, 可以使异构图涉及更全面的信息和
                 丰富的语义. 基于学习到的异构结构的注意力值, 我们的模型可以获得邻居和多条边的最优权重组合且相互之间
                 不共享, 从而使学习到的节点嵌入能够更好地捕捉异构图中复杂结构和语义信息的丰富性. 之后, 可以通过端到端
                 的反向传播优化整个框架. 同时, 我们在槽位填充任务上采用窗口机制, 以更好地适应槽标签的局部连续性.
                    我们在两个公开数据集         ATIS [15] 和  SNIPS [16] 进行了实验, 针对两个数据集的实验结果都证明了我们框架及其
                 各个组件的有效性, 实现了最先进的性能. 总而言之, 我们的贡献如下.
                    (1) 我们提出了一种异构结构框架, 对         ID  和  SF  任务进行联合建模, 以充分考虑不同任务类型的节点和连接所
                 代表的不同语义信息. 据我们所知, 我们率先将异构图结构引入了                    SLU  领域.
                    (2) 我们利用非自回归和窗口机制来准确表示话语的标记, 以更好地适应槽标签的局部连续性.
                    (3) 我们进行了广泛的实验来证明我们模型的有效性. 实验结果表明, 我们的模型在两个公共数据集上实现了
                 最先进的性能. 同时, 我们采用了预训练模型            BERT, 以使得我们的模型效果进一步提升.
                  2   相关工作

                    在口语理解中, 意图检测一般被视为预测意图标签的语义分类问题, 而槽位填充主要被视为序列标注任务.
                 SLU  模块将用户生成的自然语言消息转换为语义槽, 用于分类和意图检测. 早些年, 为了解决上述分类问题, 已经
                 提出了一些方法, 如支持向量机          (support vector machine, SVM) [17] 和条件随机场  (conditional random field, CRF) [18] .
                 最近, 基于深度学习的系统以其出色的性能引起了人们的关注.
                    对于意图检测任务模型, 深度凸网络            [19,20] 将前序神经网络的预测和当前话语结合起来, 作为当前网络的集成
                 输入, 这种方法率先成功提高对话意图检测的准确率. 为了在序列处理中利用神经网络, 循环神经网络                                (recurrent
                 neural network, RNN) 和长短期记忆网络  (long short-term memory network, LSTM) [21,22] 用作意图检测任务的话语编
                 码器, 表明序列特征有利于意图检测任务. 最近, 预训练面向任务对话系统, 显著提高了意图检测子任务的预测准
                 确性  [23] . 该模型还表现出很强的稀缺数据学习能力, 可以有效缓解特定领域的数据不足问题.
                    槽位填充任务, 也称为语义标注任务, 是一个序列分类问题. 循环架构有利于序列标记任务, 因为它们可以沿
                 着过去的时间步跟踪信息以充分利用序列信息. 常用的槽位填充神经网络方法包括条件随机场和循环神经网络,
                 基于  RNN  语言模型   (RNN-LMs)  [24] 可以用来检测序列标签, 而不是简单地预测单词, 其作者还对命名实体、句法
                 特征和单词信息进行了研究. 有学者进一步研究了不同循环结构对槽位填充任务的影响, 发现所有                                RNN  都优于
                 CRF  基线  [25,26] . 与传统的序列标记方法不同, 文献  [27] 通过将其视为基于回合的跨度提取任务来解决槽位填充任务.
                    最近, 许多研究将意图检测和槽位填充任务结合到一个多任务学习框架中, 以共同优化共享潜在空间                                [28,29] . 一
                 些方法考虑了从      ID  到  SF  的单一信息流, 因为意图信息可以为槽位填充提供句级语义特征. 门机制                   [30,31] 的应用率
                 先将意图信息应用于槽位填充任务. 堆栈传播框架                 [32] 以执行单流操作令意图语义知识来指导槽位填充. Graph
                      [7]
                 LSTM 方法利用时间步模拟意图和槽之间的语义相关性, 以达到两个任务信息的交互更新. 最近, Co-interactive
                                    [9]
                          [6]
                 transformer 和  CM-net 提出了交互意图检测和槽位填充任务的模型, 以充分利用两种信息的交互共享知识.
                 TF  [33] 提出将语法知识编码到基于     Transformer 编码器的模型中, 用于意图检测和槽位填充, 语法监督可以帮助模
                 型更好地学习语法模式. 这些联合模型可以准确地捕捉两个任务之间的共享知识, 从而整体提高两个任务的性能.
   304   305   306   307   308   309   310   311   312   313   314