Page 280 - 《软件学报》2025年第5期
P. 280
2180 软件学报 2025 年第 36 卷第 5 期
RoBERTa-large 作为生成器 encoder 时, 相比 DyRRen 生成器中设计的重排机制, 通过 MGCC 区分单元格句子语
义来帮助生成器选择支撑单元格更有效.
(4) 在 FinQA 数据集上, 与结合 CoT 的大型语言模型 GPT-3.5-Turbo 和 Llama 2-13B 相比, 基于 RoBERTa-
large 的 FinQANet 结合 MGCC 方法分别获得 5.44% 和 39.28% 答案正确率提升. 这表明对于大型语言模型来说,
结合文本和表格的数值问答任务对于大语言模型也是有挑战性的. 通过对预训练语言模型进行微调, 不仅可以超
越大语言模型的性能, 还能在实际应用中降低推理成本.
表 4 展示了基准模型和 MT2Net+MGCC 在 MultiHiertt 测试集上的结果, 这些基准模型结果来自 Zhao 等人 [8] .
表 4 问答模型在 MultiHiertt test 集上结果 (%)
Model Answer accuracy F1
Longformer 2.86 6.23
Retriever+TAPAS 7.67 10.04
Retriever+NumNet 10.77 12.02
Retriever+TAGOP(RoBERTa-large) 17.81 19.35
Fetriever+Seq2Seq 24.58 26.30
FinQANet(RoBERTa-large) 31.72 33.60
Llama 2-13B 1.54 -
Llama 2-13B+CoT 30.66 -
GPT-3.5-Turbo 25.88 -
GPT-3.5-Turbo+CoT 42.33 -
MT2Net(RoBERTa-large) 36.22 38.43
MT2Net(RoBERTa-large)+MGCC 44.02±0.4 44.41±0.4
Human Expert Performance 83.12 87.03
从表 4 本文可以得到下列结论.
(1) 在 MultiHiertt 数据集上, 验证 MGCC 的 MT2Net(RoBERTa-large) 在所有对比的非大语言基准模型中取得
了领先性能. 相比于仅生成答案的 Retriever+TAPAS 和直接输入文档的 Longformer, MT2Net(RoBERTa-large) 领
先幅度是巨大的. MT2Net(RoBERTa-large) 在两种答案评价指标上都超过 FinQANet(RoBERTa-large) 模型, 这主
要得益于 MT2Net(RoBERTa-large) 在生成器中设计了一个额外答案抽取子模块, 专门处理答案抽取问题类型. 对
比于处理简单表达式类型的 NumNet 和 TAGOP, MT2Net(RoBERTa-large) 也获得了大幅性能领先, 这说明 MT2Net
(RoBERTa-large) 设计的生成器更为有效.
(2) 比较于 MT2Net(RoBERTa-large), MT2Net(RoBERTa-large)+MGCC 获得了 7.8% 答案正确率的显著提升.
相比 FinQA 数据集, MGCC 在 MultiHiertt 数据集上获得了更大的提升. 本文认为, 这种提升的原因主要与
MultiHiertt 数据集的特殊性有关. MultiHiertt 数据集中的问题需要层次化表格来回答, 这些转化后的支撑单元格句
子和干扰单元格句子是更加难以区分的. 这主要是由于多个简短行名拼接是难以学习的; 干扰单元格多个层次化
行名或者列名更容易和问题中词汇重合, 使生成器难以区分它们; 以及问题中支撑单元格句子和干扰单元格句子
的层次化行名 (列名) 的重复, 这种问题占比大约是 15%. 因此, 在 MT2Net 中, 区分支撑单元格句子和干扰单元格
句子成为一个重大的挑战. MGCC 的应用, 在这一挑战上带来了更大的收益.
(3) 对比于大语言模型, MT2Net(RoBERTa-large)+MGCC 也展现了性能优势. 在答案正确率上, 其超过了 GPT-
3.5-Turbo+CoT 和 Llama 2-13B+CoT, 分别提升了 1.69% 和 13.36%.
4.6 消融实验
表 5 展示了不同参数规模的 FinQANet 结合不同对比类型, 在 FinQA 测试集上的结果. 这里 SemContrast 表
示粗粒度单元格语义对比, RowContrast 表示细粒度单元格行名对比, ColContrast 表示细粒度单元格列名对比,
ValContrast 表示细粒度单元格数值对比. 总体而言, 从表 5 中可以归纳出粗粒度单元格语义对比和 3 种细粒度单
元格语义构成元素对比都是有效的.