Page 153 - 《软件学报》2025年第4期
P. 153
王泽 等: 基于槽依赖建模的跨领域槽填充方法 1559
然而, 前面提到的这些方法都是单独地对槽类型进行预测, 忽略了不同槽类型之间存在的内在联系, 尤其在跨
领域场景, 源领域与目标领域之间对槽类型的预测可能存在一些隐式依赖. 例如, 在预测天气任务 (领域) 中, 天气
情况 (condition_description) 与地点 (city) 同步出现在用户话语中的可能性是很大的, 这就意味着地点这一槽类型
能够辅助模型判断出话语中存在天气情况, 模型在拥有这种意识以后, 对于目标领域 (以预定饭店作为目标领域)
中的地点 (地点属于与源域共享的槽类型) 仍然会辅助模型预测与其存在依赖的未知槽类型. 比如目标领域的话
语中如果提到地点, 那么大概率会同时出现餐厅类型或者餐厅名称等实体, 模型可以借助地点这一槽类型进一步
推理.
基于上述分析, 本文提出了一种基于槽依赖建模的跨领域槽填充方法, 该方法基于生成式预训练模型的优势,
首先提出一个新颖的提示模板, 将之前的槽类型与槽实体一对一单独生成的方式改进为多对多生成. 该提示模板
由槽语义提示和槽共享提示组成, 其中槽语义提示指出要预测的槽类型, 槽共享提示建立槽间依赖, 从而可以捕获
不同槽类型之间的潜在关联, 避免独立预测的信息孤立性. 其次, 该方法额外增加了一个话语填充子任务, 将槽实
体加入到提示中对原文进行填充, 从而增强不同槽类型的实体对原文的感知, 避免出现实体类型匹配错误的问题.
综上, 本文的贡献主要包括以下 3 点.
等人
(1) 提出了一种基于槽依赖建模的生成式提示学习方法, 利用不同槽类型之间的隐式依赖帮助模型预测相关
实体.
(2) 考虑到多个槽类型同时进行实体生成容易出现实体类型错误映射的问题, 本文增加了一个话语填充子任
务, 由模型自己选择提示中的实体对原文进行还原.
(3) 在 SNIPS 和 TOP 数据集上的实验结果表明本文提出的方法取得了优异的性能, 并且通过多个对比实验验
证了各个模块发挥的功能及其存在的必要性.
本文第 1 节介绍跨领域槽填充任务的相关工作. 第 2 节对生成式跨领域槽填充任务的定义进行阐述, 并且描
述基于槽依赖建模的跨领域槽填充方法的实现细节. 第 3 节通过各种实验结果和实验分析表明本文方法的有效
性. 第 4 节从整体总结当前方法, 并对未来可改进的部分进行初步探讨.
1 相关工作
跨领域槽填充任务主要包括序列标注框架、MRC 框架和生成式框架这 3 种形式. 其中, 针对序列标注框架的
研究较为充分. 跨领域任务最难的一个挑战就是对未知槽类型的预测, 早期的研究中, Ferreira 等人 [7] 提出一种在
线自适应策略, 使用大量未标注的非结构化数据学习字的连续空间向量表示, 基于神经网络框架将目标域的本体
描述和通用词嵌入特征推导出解码模型, 这种方法可以在少量可调整的监督下完善模型. 后来研究者将关注点转
移到槽类型的描述信息, Bapna 等人 [10] 对槽描述信息进行嵌入, 将其融入至多任务框架中训练槽序列标注模型. 但
是这种方法单独地预测每个槽类型, 容易出现一个实体被预测为多个槽类型的多预测问题. Liu 等人 [12] 使用了一
种由粗到细的两阶段框架: 第 1 阶段通过序列标注任务来识别句中存在的槽实体位置, 第 2 阶段对识别到的槽实
体表征与槽类型描述嵌入进行相似度匹配, 此外, 还增加了模板正规化去提升对相似槽类型预测的性能. 该方法不
仅解决了多预测问题, 而且模型为源域中所有槽类型共享参数, 保证槽实体能学习到通用样式. 自两阶段框架出现
后, 所有的序列标注任务都开始延用这种结构, 并在此基础上进行改进. He 等人 [13] 提出了一种使用对抗攻击的对
比零样本学习方法, 通过增加噪声输入来增强跨领域模型的鲁棒性. Liu 等人 [14] 分别在两个阶段学习不同的上下
文表示, 在槽类型匹配的输入层将槽实体信息融合全局的上下文信息来进行相似度计算. 不同领域中存在的公共
句法结构也是实现领域迁移的一个关键信息, Liu [15] 将句法树信息嵌入到文本表示中, 在文本表示中融入源
域的句法特征, 借助结构关系预测槽实体位置. 上述方法都是从增强模型泛化能力的角度去优化. Li 等人 [16] 应用
原型的概念, 将每个槽描述映射为槽原型, 通过原型对比学习拉近槽实体与其槽原型在语义空间的距离, 提高了类
型匹配的准确率. 特别地, Luo 等人 [21] 在最新研究中, 使用 BIO 标签作为可训练的序列加入到输入中, 并且将当前
领域中的所有槽类型拼接在话语后, 从预训练模型中逐层提取注意力得分进行整合, 作为最终的标注特征. 但序列