Page 279 - 《软件学报》2025年第5期
P. 279

琚江舟 等: 多粒度单元格对比的文本和表格数值问答模型                                                     2179


                 用于优化模型参数, 学习率是         2.0E–5, 采用线性预热方案在前       100  步数据上进行学习率预热. 训练的         batch size 为
                 16, 训练的  epochs 是  60. 本文随机采样的正例数目     K1 为  20, 负例数目  K2 为  10, 这里  K1 和  K2 代表最多采样个数.

                 4.5   主要实验结果
                    本节主要展示基准模型与引入多粒度单元格语义对比                   (MGCC) 的模型在 FinQA   和  MultiHiertt 数据集上性能
                 表现.
                    表  3  展示了在  FinQA  数据集上, 基准模型和     FinQANet+MGCC  的对比结果. 这里报告的所有比较基准结果,
                 除了  DyRRen  结果来自于   Li 等人  [7] , 大模型结果来自  Srivastava 等人  [40] , 其他的结果来自于  Chen  等人  [5] .

                                            表 3 问答模型在     FinQA test 集上结果 (%)

                                      Model                Answer accuracy      Program accuracy
                                  TF-IDF+Single Op              1.01                0.90
                               Retriever+Direct Generation      0.30                 -
                                  Retriever+Seq2Seq            19.71                18.38
                                  LongFormer(base)             21.90                20.48
                               Retriever+NeRd(BERT-base)       48.57                46.76
                                 FinQANet(FinBERT)             50.10                47.52
                                 DyRRen(BERT-base)             59.37                57.54
                                DyRRen(RoBERTa-large)          63.30                61.29
                                    Llama 2-13B                 1.80                 -
                                  Llama 2-13B +CoT             25.34                 -
                                   GPT-3.5-Turbo               40.47                 -
                                 GPT-3.5-Turbo+CoT             59.18                 -
                                 FinQANet(BERT-base)           50.00                48.00
                              FinQANet(BERT-base)+MGCC        51.28±0.4           49.43±0.4
                               FinQANet(RoBERTa-large)         61.24                58.86
                            FinQANet(RoBERTa-large)+MGCC      64.62±0.1           62.47±0.2
                               Human Expert Performance        91.16                87.49
                               General Crowd Performance       50.68                48.17

                    本文从表    3  可以得出以下结论.
                    (1) 验证  MGCC  的 FinQANet 在性能上优于大多数基准模型. IF-IDF+Single Op      性能较弱, 这表明纯粹依赖启
                 发式规则难以解决复杂的数值推理问题. 通过对比                FinQANet 和  Retriever+Direct Generation, 说明使用计算程序作
                 为监督信号在生成器的训练中起着关键作用. 这是因为计算程序给生成器提供了更为明确的学习信号, 减少了学
                 习空间和复杂度. 将      FinQANet(BERT-base) 和  Retriever+Seq2Seq  比较表明, 使用知识丰富的预训练语言模型来编
                 码问题对回答数值推理问题是有用的. 通过对比               FinQANet(BERT-base) 和  Retriever+NeRd(BERT-base), 说明解码
                 包含推理结构的计算程序是有用的, 这让模型在小规模的数据集上可以快速学习到如何解决问题. 比较                                 FinQANet
                 (BERT-base) 和  LongFormer(base), 尽管两者有大致的参数规模, 但      FinQANet 在答案正确率上的表现超过了
                 LongFormer(base) 达到  29.38%. 这强调了在数据存在大量噪音时, 应该优先使用检索器筛选出相关的事实, 再由一
                 个生成器生成计算程序. FinQANet(FinBERT) 表现较差, 可能是因为           FinBERT  预训练的语料较少.
                    (2) 对于不同参数规模的        FinQANet, 本文都能验证多粒度单元格语义对比方法               (MGCC) 有效性. 特别地,
                 FinQANet(RoBERTa-large)+MGCC  相比  FinQANet(RoBERTa-large), 在答案正确率上获得了   3.38%  的大幅提升.
                 同时相比   FinQANet(BERT-base), FinQANet(BERT-base)+MGCC  在答案正确率上获得了     1.28%  提升. 因此在两种
                 参数规模的    FinQANet 上都验证了    MGCC  有效性. 至于在更大的参数规模上, MGCC           表现更好. 可能是因为模型
                 参数规模的增加, FinQANet 建模表格和文本能力得到增强, 从而更有效地利用                   MGCC  区分单元格语义的能力.
                    (3) FinQANet(RoBERT-large)+MGCC  超过了所有比较的基准模型. 比较于        FinQANet, DyRRen  在检索器和生
                 成器上都做了进一步的优化, 但是          FinQANet(RoBERTa-large)+MGCC  表现超过  DyRRen(RoBERTa-large). 说明在
   274   275   276   277   278   279   280   281   282   283   284