Page 285 - 《软件学报》2025年第5期

P. 285

琚江舟等: 多粒度单元格对比的文本和表格数值问答模型 2185

large)+MGCC 在线性映射函数上带来生成器性能好于非线性映射函数. (3) 不使用映射函数在两种参数规模上都
使生成器性能达到最优. 然而, 结论 (2) 和 (3) 与 Chen 等人 [17] 工作有些出入. 可能的原因是, 在本文的实验中, MGCC
学习目标是区分干扰和支撑单元格句子语义, 而生成器也是要区分干扰和支撑单元格句子语义, 这两者学习目标
有很大相似性. 而在 Chen 等人 [17] 工作中, 对比学习的目标和下游任务的目标差异较大, 非线性映射有助于剔除与
对比损失无关的特征. 尽管不使用映射函数转化原始锚点, 正负例向量到辅助空间获得了最好性能, 但其优势相较
于使用 Sigmoid 非线性映射函数并不显著. 因此本工作仍采用主流的非线性 Sigmoid 映射函数将原始锚点, 正负
例映射到辅助空间进行对比损失学习.

5 总结与展望

本文探讨了基于文本和表格的数值推理任务, 这个任务需要模型基于异构文本和表格进行数值推理, 生成计
算程序, 并以计算程序结果作为答案. 为了充分利用预训练语言模型强大的推理能力, 当前工作使用模板将表格线
性化为表格文本, 但这会导致问答模型生成器难以区分支撑单元格句子和干扰单元格句子. 为了解决这个问题, 本
文提出了一种多粒度单元格语义对比 (MGCC) 方法, 其旨在优化支撑和干扰单元格句子语义表示, 使生成器可以
更有效区分他们. 实验结果验证了 MGCC 的有效性, 进一步的实验分析也验证了 MGCC 确实可以帮助生成器区
分支撑和干扰单元格句子语义表示.
未来工作可以从以下 3 个方面进行深入探索: (1) 在消融实验中, 本文发现 MGCC 相比仅使用粗粒度单元格
语义对比或者细粒度单元格语义构成元素对比, 没有大幅度领先. 因此, 如何更有效地结合粗粒度和细粒度对比机
制是值得进一步研究的问题. (2) 表格单元格语义差异小是表格数据存在的天然特征, 探索如何将这种多粒度单元
格语义对比扩展到预训练语言模型中, 使其能区分差异细微的单元格语义也是一个有前途方向. (3) 在消融实验
中, 本文发现于对于能力较弱的编码器 (encoder), 其学习区分对比学习正负样本能力受到限制. 因此探索针对不同
能力模型 (如能力较强或较弱的模型), 如何选择恰当的正负样本以优化学习效果和模型性能是一个值得研究方向.

References:
[1] You L, Zhou YQ, Huang XJ, Wu LD. A maximum entropy model based confidence scoring algorithm for QA. Ruan Jian Xue
Bao/Journal of Software, 2005, 16(8): 1407–1414 (in Chinese with English abstract). http://www.jos.org.cn/1000-9825/16/1407.htm [doi:
10.1360/jos161407]
[2] Qiao SJ, Yang GP, Yu Y, Han N, Qin X, Qu LL, Ran LQ, Li H. QA-KGNet: Language model-driven knowledge graph question-
answering model. Ruan Jian Xue Bao/Journal of Software, 2023, 34(10): 4584–4600 (in Chinese with English abstract). http://www.jos.
org.cn/1000-9825/6882.htm [doi: 10.13328/j.cnki.jos.006882]
[3] Karpukhin V, Oguz B, Min S, Lewis P, Wu L, Edunov S, Chen DQ, Yih WT. Dense passage retrieval for open-domain question
answering. In: Proc. of the 2020 Conf. on Empirical Methods in Natural Language Processing (EMNLP). Association for Computational
Linguistics, 2020. 6769–6781. [doi: 10.18653/v1/2020.emnlp-main.550]
[4] Caciularu A, Dagan I, Goldberger J, Cohan A. Long context question answering via supervised contrastive learning. In: Proc. of the 2022
Conf. of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Seattle:
Association for Computational Linguistics, 2022. 2872–2879. [doi: 10.18653/v1/2022.naacl-main.207]
[5] Chen ZY, Chen WH, Smiley C, Shah S, Borova I, Langdon D, Moussa R, Beane M, Huang TH, Routledge B, Wang WY. FinQA: A
dataset of numerical reasoning over financial data. In: Proc. of the 2021 Conf. on Empirical Methods in Natural Language Processing.
Online and Punta Cana: Association for Computational Linguistics, 2021. 3697–3711. [doi: 10.18653/v1/2021.emnlp-main.300]
[6] Wang B, Ju JZ, Mao YL, Dai XY, Huang SJ, Chen JJ. A numerical reasoning question answering system with fine-grained retriever and
the ensemble of multiple generators for FinQA. arXiv:2206.08506, 2022.
[7] Li X, Zhu Y, Liu SC, Ju JZ, Qu YZ, Cheng G. DyRRen: A dynamic retriever-reranker-generator model for numerical reasoning over
tabular and textual data. arXiv:2211.12668, 2022.
[8] Zhao YL, Li YX, Li CY, Zhang R. MultiHiertt: Numerical reasoning over multi hierarchical tabular and textual data. In: Proc. of the 60th
Annual Meeting of the Association for Computational Linguistics (Vol. 1: Long Papers). Dublin: Association for Computational
Linguistics, 2022. 6588–6600. [doi: 10.18653/v1/2022.acl-long.454]
[9] Sun JS, Zhang H, Lin C, Su XD, Gong YY, Guo J. APOLLO: An optimized training approach for long-form numerical reasoning.

280 281 282 283 284 285 286 287 288 289 290