Page 314 - 《软件学报》2024年第4期
P. 314

1892                                                       软件学报  2024  年第  35  卷第  4  期



                 其中,   ˆ y i,I   和  ˆ y i,S   分别表示人工标注正确的意图和槽位标签;   m 表示意图标签数量,   T  表示槽标签数量. 最终联合损
                       j   j
                 失函数如下:
                                                        L = λL 1 + L 2                               (23)
                 其中,   λ 为超参数.
                  4   实 验

                  4.1   数据集
                    为了全面评估我们提出的模型的性能, 我们在两个公共数据集                     ATIS  和  SNIPS  上进行了实验.
                    ATIS [15] : 航空公司旅行信息系统    (airline travel information systems, ATIS) 数据集长期以来一直被用作口语理
                 解的基准. 训练集包含       4 478  个话语, 验证集包含   500  个话语, 测试集包含    893  个话语, 共有  120  个不同的槽标签
                 和  21  个不同的意图类型.
                    SNIPS [16] : 该数据集是从  SNIPS  个人语音助手中收集的, 具有         72  个槽位标签和    7  个意图类型. 训练集有
                 13 084  个话语, 验证集有  700  个话语, 测试集有   700  个话语.
                  4.2   实验设置及评估指标
                    在论文中, 对于    ATIS  和  SNIPS  数据集, 词嵌入的维数设置为     300. 两个数据集上的自注意力隐藏单元维数都是

                 1 024. 同时, 我们设置窗口大小     δ 为  2,   δ  为 ′  1, 异构交互注意力层头数  K  设置为  8, 意图感知槽填充解码器中自注
                 意力单元头数设置为        2. 超参数  λ 设置为  1. 我们框架上使用的     L 2  正则化为  1×10 −6  , dropout 率设置为  0.2. 我们使
                 用  Adam [35] 去优化参数并设置训练次数为      100  次.
                    针对意图检测任务, 我们采用准确率            (accuracy) 来评估意图检测的预测性能:
                                                                正确预测的样例个数
                                         意图检测准确率(Intent Acc)=                                        (24)
                                                                    样例总数
                    针对槽位填充任务, 我们采用         F1  分数来评估槽位填充的预测性能:
                                                                TP
                                                    查准率(P) =                                         (25)
                                                              TP+ FP
                                                                TP
                                                    召回率(R) =                                         (26)
                                                              TP+ FN
                                                                  2× P×R
                                                槽位填充F1分数(F1) =                                       (27)
                                                                    P+R
                 其中,    TP  为真正例个数,    FP  为假正例个数,   FN  为假反例个数.
                    同时, 我们采用总体精度        (overall accuracy) 针对句子级语义框架解析进行评估, 评估指标为:
                                                          意图和槽位都预测正确的样例个数
                                    总体精度(overall accuracy) =                                         (28)
                                                                    样例总数
                  4.3   基线模型
                    为了全面评估我们所提出的模型            HcoSG, 我们将我们的模型与以下基线方法进行了比较.
                    Slot-Gated [30] 提出了一种槽门机制, 可以专注于学习意图和槽注意力向量之间的关系, 以便通过全局优化获得
                 更好的语义框架结果.
                                [4]
                    SF-ID Network 增强了双向关联连接, 为两个任务建立直接连接, 帮助它们相互促进.
                    CM-Net (collaborative memory network) 率先以协作的方式从记忆中捕获特定于槽位和特定于意图的特征, 然
                                                   [9]
                 后使用这些丰富的特征来增强局部上下文表示, 在此基础上, 顺序信息流可以引出更特定的槽位和意图全局话语表示.
                    Stack-Propagation [32] 执行  token  级别的意图检测, 以提高意图检测性能并进一步缓解错误传播.
                    Graph LSTM 提出用图长短时记忆网络来解决这个任务, 它首先将文本转换为图形, 然后利用消息传递机制
                              [7]
   309   310   311   312   313   314   315   316   317   318   319