Page 314 - 《软件学报》2024年第4期
P. 314
1892 软件学报 2024 年第 35 卷第 4 期
其中, ˆ y i,I 和 ˆ y i,S 分别表示人工标注正确的意图和槽位标签; m 表示意图标签数量, T 表示槽标签数量. 最终联合损
j j
失函数如下:
L = λL 1 + L 2 (23)
其中, λ 为超参数.
4 实 验
4.1 数据集
为了全面评估我们提出的模型的性能, 我们在两个公共数据集 ATIS 和 SNIPS 上进行了实验.
ATIS [15] : 航空公司旅行信息系统 (airline travel information systems, ATIS) 数据集长期以来一直被用作口语理
解的基准. 训练集包含 4 478 个话语, 验证集包含 500 个话语, 测试集包含 893 个话语, 共有 120 个不同的槽标签
和 21 个不同的意图类型.
SNIPS [16] : 该数据集是从 SNIPS 个人语音助手中收集的, 具有 72 个槽位标签和 7 个意图类型. 训练集有
13 084 个话语, 验证集有 700 个话语, 测试集有 700 个话语.
4.2 实验设置及评估指标
在论文中, 对于 ATIS 和 SNIPS 数据集, 词嵌入的维数设置为 300. 两个数据集上的自注意力隐藏单元维数都是
1 024. 同时, 我们设置窗口大小 δ 为 2, δ 为 ′ 1, 异构交互注意力层头数 K 设置为 8, 意图感知槽填充解码器中自注
意力单元头数设置为 2. 超参数 λ 设置为 1. 我们框架上使用的 L 2 正则化为 1×10 −6 , dropout 率设置为 0.2. 我们使
用 Adam [35] 去优化参数并设置训练次数为 100 次.
针对意图检测任务, 我们采用准确率 (accuracy) 来评估意图检测的预测性能:
正确预测的样例个数
意图检测准确率(Intent Acc)= (24)
样例总数
针对槽位填充任务, 我们采用 F1 分数来评估槽位填充的预测性能:
TP
查准率(P) = (25)
TP+ FP
TP
召回率(R) = (26)
TP+ FN
2× P×R
槽位填充F1分数(F1) = (27)
P+R
其中, TP 为真正例个数, FP 为假正例个数, FN 为假反例个数.
同时, 我们采用总体精度 (overall accuracy) 针对句子级语义框架解析进行评估, 评估指标为:
意图和槽位都预测正确的样例个数
总体精度(overall accuracy) = (28)
样例总数
4.3 基线模型
为了全面评估我们所提出的模型 HcoSG, 我们将我们的模型与以下基线方法进行了比较.
Slot-Gated [30] 提出了一种槽门机制, 可以专注于学习意图和槽注意力向量之间的关系, 以便通过全局优化获得
更好的语义框架结果.
[4]
SF-ID Network 增强了双向关联连接, 为两个任务建立直接连接, 帮助它们相互促进.
CM-Net (collaborative memory network) 率先以协作的方式从记忆中捕获特定于槽位和特定于意图的特征, 然
[9]
后使用这些丰富的特征来增强局部上下文表示, 在此基础上, 顺序信息流可以引出更特定的槽位和意图全局话语表示.
Stack-Propagation [32] 执行 token 级别的意图检测, 以提高意图检测性能并进一步缓解错误传播.
Graph LSTM 提出用图长短时记忆网络来解决这个任务, 它首先将文本转换为图形, 然后利用消息传递机制
[7]