Page 202 - 《软件学报》2025年第4期
P. 202

1608                                                       软件学报  2025  年第  36  卷第  4  期


                 质量的解释数据. 已有研究表明, 提示模板对于大语言模型的生成质量至关重要                         [41] . 据此, 我们基于以下原则设计
                 提示模板: 1) 简洁性: 提示模板须在明确表达任务要求的同时, 保持简洁和清晰; 2) 普适性: 提示应适用于各种自
                 然语言理解任务, 尽可能保持模板形式的一致性; 3) 可控性: 提示模板应引导模型对于正确的答案生成合理的解
                 释, 避免出现错误的解释. 我们将带有真实标签引导的提示工程称为可控性提示方法. 如图                           3(2) 所示, 在实际实验
                 中, 我们使用了<Why the answer is “[label]”?>的提示模板, 以指导生成式大模型      ChatGPT  自动生成可控性解释数据.

                                  :                             :                         :
                                                                   (1) 生成提示数据

                                                                                          :



                                          ‘  ’
                        U = {U 1 ,U 2 ,...,U N } , 训练目标为最大化如下损失函数
                                                                   (2) 生成可控性解释数据

                                                                    ‘  ’              “   ”

                                                                    (3) 混合提示数据与解释数据



                                                               大模型     (4) 微调大语言模型

                                                  图 3 数据集具体构造过程

                    ● 构造混合数据集: 已有工作完全使用解释性数据集微调生成式语言模型来提高模型的鲁棒性                               [37,42] , 经过训
                 练的模型将在生成标签的同时严格生成对于输入数据与该标签之间的因果解释. 然而我们认为, 完全使用解释数
                 据进行训练并非最佳选择. 由于样本中解释文本在长度上远大于标签文本, 全解释数据训练可能使得模型过分专
                 注于解释部分, 偏离了原始推理任务的目标, 进而影响最终结果. 因此, 我们选择将一部分解释数据与原始提示数
                 据混合进行训练. 具体来说, 在获得提示数据集之后, 我们先从提示数据集中抽取一部分数据用于生成解释数据,
                 随后将其与剩余未含解释内容的提示数据混合, 并用该混合数据集进行模型的最终训练. 实验中, 我们采用了                                  1:1
                 的混合比例, 并在后续的分析实验中验证了这一比例为最佳设置.

                 2.1.2    微调模型
                    我们基于上述获得的带有可控性解释的混合数据集, 对生成式自回归模型进行微调. 以仅解码器结构的模型
                 LLaMA  为例, 该模型是一个基于       Transformer 架构的大规模预训练语言模型, 由多个         Transformer 的解码器模块组
                 成, 并通过自回归方法生成文本序列. 在预训练阶段, 该模型使用了大量无标签文本数据进行训练, 任务是在给定
                 上文后预测下一个词, 目标是最大化给定上文下一词的对数似然度. 具体来说, 给定一个包含                           N  个训练词符的训练
                 文本实例                                             L pre  :

                                                        ∑
                                                   L pre =  logP(U t |U <t ;θ),
                                                        U t ∈U
                 其中,   U t  为训练文本  U  中的每一个词符,    U <t  为训练文本  U  中在   U t  之前的所有词符,   P(U t |U <t ;θ) 为模型在参数在
                 θ 下给定上下文    U <t  预测  U t  的概率.
                    微调过程与预训练过程类似, 给定一个经过特定提示模板处理后的训练实例, 该实例包含了提示语句序列                                   S
                 以及目标标签序列      Y  , 训练目标为最大化如下损失函数         L ft  :
   197   198   199   200   201   202   203   204   205   206   207