Page 153 - 《软件学报》2025年第9期
P. 153
4064 软件学报 2025 年第 36 卷第 9 期
● Q: 15Cr 材料的热处理方式是什么, 它的齿面硬度值是多少?
● A: 热处理方式是渗碳、淬火、回头, 齿面硬度为 55–60 HRC.
● 对应知识三元组: “[15Cr, 材料的热处理方式, 渗碳、淬火、回头 ]”“[15Cr, 材料的齿面硬度, 55–60 HRC]”.
在构建 Mecha-QA 时, 主要采用 GPT-3.5 作为 LLM, 并以传统机械制造业为领域. 为了进一步验证模型的泛
化能力和鲁棒性, 并消除可能存在的模型偏好问题 (即在后续实验中使用相同的模型对可能带来的偏倚进行问
答), 本研究引入多种大型语言模型, 包括通义千问、GPT-3.5 以及 ChatGLM, 针对机械制造的子领域——增材制
造, 构建了 Mecha-QA-3D 测试集作为补充.
最终, Mecha-QA 和 Mecha-QA-3D 数据集中问题对应的关键知识数量的占比如图 5 所示, 在 Mecha-QA 中,
89.2% 的问题对应唯一关键知识, 而在 Mecha-QA-3D 中则为 51.35%. 图 6 展示了 Mecha-QA 和 Mecha-QA-3D 中
问题对应的噪声数据量与关键知识条目比的分布情况, 其中密度图的宽度反映了对应比值的频数. 图 6 表明, 两个
数据集中该比值的主要分布范围为 2–9, 即: 在 Mecha-QA 和 Mecha-QA-3D 中, 每一个问题可以检索到的噪声数
据量为关键知识条目的 2–9 倍. 结合图 5 及图 6 可知, 在 Mecha-QA 上使用传统“检索-问答”的方法进行知识图谱
问答时会引入较多的噪声数据, 可能对结果产生较大干扰, 从而增加该数据集上的推理难度, 而与 Mecha-QA 相
比, Mecha-QA-3D 中噪声数据与关键知识条目比更多, 推理难度进一步加大.
关键知识数量: 1 关键知识数量: 3
关键知识数量: 2 关键知识数量: 其他 30
Mecha-QA Mecha-QA-3D 25
2.2 1.4 20
7.1 11.35 噪声数据量与关键知识条目比 (%) 15
14.86 10
51.35 5
89.2 0
22.43
Mecha-QA Mecha-QA-3D
数据集
图 5 Mecha-QA 和 Mecha-QA-3D 数据集中关键知识 图 6 Mecha-QA 和 Mecha-QA-3D 数据集中噪声数据
数量占比情况 (%) 与关键知识条目比分布情况
4 实验结果及分析
4.1 实验数据集
本文采用的数据集是自构建机械制造领域知识图谱中文问答数据集 Mecha-QA 以及航空航天领域英文问答
数据集 Aero-QA [19] . 其中, Mecha-QA 是本文基于机械制造领域三元组, 利用 LLM 生成的问答数据集. 除测试集
外, 还包含了 Mecha-QA-3D 测试集, 以更全面地评估模型性能. Aero-QA 是文献 [19] 中构建的针对 AviationKG [49]
知识图谱的问答数据集. 两个数据集的相关情况如表 3 所示.
表 3 所用数据集统计情况
数据集 三元组数 训练集 验证集 测试集
Mecha-QA 1 767 571 - 142
Mecha-QA-3D 838 - - 370
Aero-QA 96 686 17 038 2 130 2 131
4.2 评价指标及基准模型
在选择评估指标时, 一方面, 与传统基于知识图谱的问答系统在知识图谱中直接检索答案不同, 在本文的实验

