Page 280 - 《软件学报》2025年第5期
P. 280

2180                                                       软件学报  2025  年第  36  卷第  5  期


                 RoBERTa-large 作为生成器   encoder 时, 相比  DyRRen  生成器中设计的重排机制, 通过       MGCC  区分单元格句子语
                 义来帮助生成器选择支撑单元格更有效.
                    (4) 在  FinQA 数据集上, 与结合   CoT  的大型语言模型     GPT-3.5-Turbo 和  Llama 2-13B 相比, 基于  RoBERTa-
                 large 的  FinQANet 结合  MGCC 方法分别获得   5.44%  和  39.28%  答案正确率提升. 这表明对于大型语言模型来说,
                 结合文本和表格的数值问答任务对于大语言模型也是有挑战性的. 通过对预训练语言模型进行微调, 不仅可以超
                 越大语言模型的性能, 还能在实际应用中降低推理成本.
                    表  4 展示了基准模型和      MT2Net+MGCC  在  MultiHiertt 测试集上的结果, 这些基准模型结果来自         Zhao  等人  [8] .

                                          表 4 问答模型在      MultiHiertt test 集上结果 (%)

                                       Model                 Answer accuracy          F1
                                     Longformer                  2.86                6.23
                                   Retriever+TAPAS               7.67                10.04
                                   Retriever+NumNet              10.77               12.02
                             Retriever+TAGOP(RoBERTa-large)      17.81               19.35
                                   Fetriever+Seq2Seq             24.58               26.30
                                FinQANet(RoBERTa-large)          31.72               33.60
                                     Llama 2-13B                 1.54                 -
                                   Llama 2-13B+CoT               30.66                -
                                    GPT-3.5-Turbo                25.88                -
                                  GPT-3.5-Turbo+CoT              42.33                -
                                MT2Net(RoBERTa-large)            36.22               38.43
                              MT2Net(RoBERTa-large)+MGCC        44.02±0.4          44.41±0.4
                                Human Expert Performance         83.12               87.03

                    从表  4  本文可以得到下列结论.
                    (1) 在  MultiHiertt 数据集上, 验证  MGCC  的  MT2Net(RoBERTa-large) 在所有对比的非大语言基准模型中取得
                 了领先性能. 相比于仅生成答案的           Retriever+TAPAS  和直接输入文档的    Longformer, MT2Net(RoBERTa-large) 领
                 先幅度是巨大的. MT2Net(RoBERTa-large) 在两种答案评价指标上都超过              FinQANet(RoBERTa-large) 模型, 这主
                 要得益于   MT2Net(RoBERTa-large) 在生成器中设计了一个额外答案抽取子模块, 专门处理答案抽取问题类型. 对
                 比于处理简单表达式类型的 NumNet 和         TAGOP, MT2Net(RoBERTa-large) 也获得了大幅性能领先, 这说明       MT2Net
                 (RoBERTa-large) 设计的生成器更为有效.
                    (2) 比较于  MT2Net(RoBERTa-large), MT2Net(RoBERTa-large)+MGCC  获得了  7.8%  答案正确率的显著提升.
                 相比  FinQA  数据集, MGCC   在  MultiHiertt 数据集上获得了更大的提升. 本文认为, 这种提升的原因主要与
                 MultiHiertt 数据集的特殊性有关. MultiHiertt 数据集中的问题需要层次化表格来回答, 这些转化后的支撑单元格句
                 子和干扰单元格句子是更加难以区分的. 这主要是由于多个简短行名拼接是难以学习的; 干扰单元格多个层次化
                 行名或者列名更容易和问题中词汇重合, 使生成器难以区分它们; 以及问题中支撑单元格句子和干扰单元格句子
                 的层次化行名     (列名) 的重复, 这种问题占比大约是          15%. 因此, 在  MT2Net 中, 区分支撑单元格句子和干扰单元格
                 句子成为一个重大的挑战. MGCC         的应用, 在这一挑战上带来了更大的收益.
                    (3) 对比于大语言模型, MT2Net(RoBERTa-large)+MGCC    也展现了性能优势. 在答案正确率上, 其超过了             GPT-
                 3.5-Turbo+CoT  和  Llama 2-13B+CoT, 分别提升了  1.69% 和  13.36%.

                 4.6   消融实验
                    表  5  展示了不同参数规模的       FinQANet 结合不同对比类型, 在      FinQA  测试集上的结果. 这里     SemContrast 表
                 示粗粒度单元格语义对比, RowContrast 表示细粒度单元格行名对比, ColContrast 表示细粒度单元格列名对比,
                 ValContrast 表示细粒度单元格数值对比. 总体而言, 从表          5  中可以归纳出粗粒度单元格语义对比和             3  种细粒度单
                 元格语义构成元素对比都是有效的.
   275   276   277   278   279   280   281   282   283   284   285