Page 153 - 《软件学报》2025年第9期
P. 153

4064                                                       软件学报  2025  年第  36  卷第  9  期


                    ● Q: 15Cr 材料的热处理方式是什么, 它的齿面硬度值是多少?
                    ● A: 热处理方式是渗碳、淬火、回头, 齿面硬度为              55–60 HRC.
                    ● 对应知识三元组: “[15Cr, 材料的热处理方式, 渗碳、淬火、回头 ]”“[15Cr, 材料的齿面硬度, 55–60 HRC]”.
                    在构建   Mecha-QA  时, 主要采用   GPT-3.5  作为  LLM, 并以传统机械制造业为领域. 为了进一步验证模型的泛
                 化能力和鲁棒性, 并消除可能存在的模型偏好问题                 (即在后续实验中使用相同的模型对可能带来的偏倚进行问
                 答), 本研究引入多种大型语言模型, 包括通义千问、GPT-3.5              以及  ChatGLM, 针对机械制造的子领域——增材制
                 造, 构建了  Mecha-QA-3D  测试集作为补充.
                    最终, Mecha-QA  和  Mecha-QA-3D  数据集中问题对应的关键知识数量的占比如图               5  所示, 在  Mecha-QA  中,
                 89.2%  的问题对应唯一关键知识, 而在        Mecha-QA-3D  中则为  51.35%. 图  6  展示了  Mecha-QA  和  Mecha-QA-3D  中
                 问题对应的噪声数据量与关键知识条目比的分布情况, 其中密度图的宽度反映了对应比值的频数. 图                                6  表明, 两个
                 数据集中该比值的主要分布范围为             2–9, 即: 在  Mecha-QA  和  Mecha-QA-3D  中, 每一个问题可以检索到的噪声数
                 据量为关键知识条目的        2–9  倍. 结合图  5  及图  6  可知, 在  Mecha-QA  上使用传统“检索-问答”的方法进行知识图谱
                 问答时会引入较多的噪声数据, 可能对结果产生较大干扰, 从而增加该数据集上的推理难度, 而与                               Mecha-QA  相
                 比, Mecha-QA-3D  中噪声数据与关键知识条目比更多, 推理难度进一步加大.


                         关键知识数量: 1      关键知识数量: 3

                         关键知识数量: 2      关键知识数量: 其他                 30
                       Mecha-QA             Mecha-QA-3D            25
                        2.2  1.4                                   20
                       7.1                   11.35                噪声数据量与关键知识条目比 (%)  15

                                          14.86                    10
                                                     51.35          5
                            89.2                                    0
                                            22.43
                                                                          Mecha-QA      Mecha-QA-3D
                                                                                   数据集
                 图 5    Mecha-QA  和  Mecha-QA-3D  数据集中关键知识    图 6    Mecha-QA  和  Mecha-QA-3D  数据集中噪声数据
                               数量占比情况 (%)                               与关键知识条目比分布情况
                 4   实验结果及分析


                 4.1   实验数据集
                    本文采用的数据集是自构建机械制造领域知识图谱中文问答数据集                         Mecha-QA  以及航空航天领域英文问答
                 数据集   Aero-QA  [19] . 其中, Mecha-QA  是本文基于机械制造领域三元组, 利用      LLM  生成的问答数据集. 除测试集
                 外, 还包含了   Mecha-QA-3D  测试集, 以更全面地评估模型性能. Aero-QA        是文献   [19] 中构建的针对   AviationKG [49]
                 知识图谱的问答数据集. 两个数据集的相关情况如表                 3  所示.

                                                  表 3 所用数据集统计情况

                               数据集            三元组数           训练集          验证集          测试集
                              Mecha-QA          1 767         571          -            142
                             Mecha-QA-3D        838           -            -            370
                               Aero-QA         96 686        17 038       2 130        2 131

                 4.2   评价指标及基准模型
                    在选择评估指标时, 一方面, 与传统基于知识图谱的问答系统在知识图谱中直接检索答案不同, 在本文的实验
   148   149   150   151   152   153   154   155   156   157   158