Page 318 - 《软件学报》2024年第4期
P. 318
1896 软件学报 2024 年第 35 卷第 4 期
将恶化最终的槽填充任务性能, 同时反向作用于以影响第 1 级意图解码器的意图预测任务性能. 因此利用先验知
识生成的意图标签嵌入表示可以更鲁棒性地指导槽位填充任务.
4.7 可视化
为了更好地证明和理解我们提出的模型中的异构交互单元可以有效地利用异构结构中的不同粒度信息进行
槽位嵌入信息的学习, 我们将一句对话和所有意图标签信息进行可视化操作, 如图 4 所示, 话语样例取自 SNIPS
数据集. 横坐标为话语单词序列, 纵坐标为 7 个意图标签. 图中表示异构结构中槽位词节点对所有意图标签节点的
关注程度, 颜色越深其关注程度越强. 基于图中的对话“please play me a popular track from 1984”我们可以清楚地看
到对话中的槽位嵌入信息的注意力权重成功地集中在正确的意图“Play music”上, 这意味着我们的异构单元可以
准确捕捉到不同粒度信息之间的共享知识, 并正确利用意图标签指导槽位填充任务. 同时, 综合上述实验结果显
示, 意图感知槽填充解码器对异构交互注意力结构具有指导意义, 因为其使得意图标签嵌入表示可以充分利用槽
位信息进行特征学习, 以达到准确表达意图的目的.
Add Toplaylist
Book restaurant
Get weather
Play music
Rate book
Sear chcreative work
Search screening event
Please Play Me A Popular Track From 1984
图 4 可视化
4.8 预训练模型的影响
最后, 我们还探讨了预训练模型 (BERT) [36] 对我们框架的影响. 在本节中, 我们将嵌入编码器替换为 BERT 基
础模型, 并与我们的模型保持相同的参数和组件. 我们对这两个数据集进行了实验, 实验结果如前文表 1 所示. 从
实验结果可以看出, 我们的模型在应用预训练模型的同时展示了新的最先进的性能. 我们将其归因于预训练模型
可以提供丰富的语义特征, 以提高两个下游任务的更好分类性能.
5 结 论
在本文中, 我们提出了一种用于联合意图检测和槽位填充的异构交互结构, 它充分捕捉了两个相关任务的异
构信息中语义信息的复杂结构和丰富性. 此外, 我们在自注意力机制中采用了窗口机制, 可以充分利用词级槽位信
息的局部连续性, 准确提取词级特征. 在两个公共数据集上的实验结果证明了我们所提出框架的有效性, 并且该框
架实现了最先进的性能. 此外, 我们所提出的模型与预训练模型 BERT 相结合的效果可以使性能进一步提升.
References:
[1] Young S, Gašić M, Thomson B, Williams JD. Pomdp-based statistical spoken dialog systems: A review. Proc. of the IEEE, 2013, 101(5):
1160–1179. [doi: 10.1109/JPROC.2012.2225812]
[2] Tur G, De Mori R. Spoken Language Understanding: Systems for Extracting Semantic Information from Speech. New York: John Wiley
& Sons, Ltd., 2011. [doi: 10.1002/9781119992691]
[3] Ni JJ, Young T, Pandelea V, Xue FZ, Cambria E. Recent advances in deep learning based dialogue systems: A systematic survey.
Artificial Intelligence Review, 2023, 56(4): 3055–3155. [doi: 10.1007/s10462-022-10248-8]
[4] Haihong E, Niu PQ, Chen ZF, Song MN. A novel bi-directional interrelated model for joint intent detection and slot filling. In: Proc. of