Page 152 - 《软件学报》2025年第9期
P. 152

马杰 等: 基于相关性提示的知识图谱问答                                                            4063



                                                       表格提取

                                                            专业书籍
                                                   人工定义关系
                                         机械制造         生成结束
                                         知识图谱
                                                  采样
                                                 三元组               生成
                                                    输入LLM    LLM  问答对   问答数据集
                                                提示词
                                                 模板

                                               图 4 Mecha-QA  数据集构建流程


                 3.1   知识图谱构建
                    (1) 数据来源. 本文构建知识图谱的原始数据主要来自机械制造领域的专业书籍, 尤其是书籍中的结构化表
                 格. 这些表格包含了材料的物理性质、制造工艺的特性、专业术语的定义等相关知识.
                    (2) 构建流程. 首先, 使用表格内容识别工具 (https://cloud.tencent.com/product/ocr) 对专业书籍中的结构化表格
                 进行识别. 然后, 对识别后的表格, 人工定义各列之间的关系. 在这一步中, 需要根据表格的内容和专业知识, 定义
                 表格中各列之间的逻辑关系, 例如材料类型与物理性质之间的关系, 制造工艺与工艺特性之间的关系等. 最后将表
                 格中的数据按照定义的规则进行映射, 生成相应的头实体、关系以及尾实体, 形成三元组, 最终构成知识图谱.

                 3.2   基于知识图谱的问答对构建
                    在构建完成机械领域知识图谱之后, 需要基于知识图谱构建问答对. 本文采用基于提示词模板的方法, 利用
                 LLM  自动化生成问答对. 具体地, 首先定义生成问答对的提示词模板, 这些模板包含了问答对中的需要生成的关
                 键信息, 如问题、答案、实体等. 然后, 从知识图谱中每次采样多个三元组, 利用这些提示词模板, 组成提示词输
                 入  LLM, 生成大量的问答对. 使用的提示词如表           2  所示.


                                                表 2 问答对构建的提示词模板

                  提示                                        提示词文本
                       你是机械领域的专家, 根据提供的三元组, 生成一些问题, 要求: 问题不要太简单, 避免形式和问题结构单一, 以JSON格
                   P   式返回, 包括的key有问题、答案、实体、对应的三元组. 问题数量尽可能多且实体需要在问句中包含. 提供的三元组:
                       {三元组 1}{三元组 2}…{三元组 n}

                    基于上述提示词和流程, 本文完成了机械制造领域知识图谱问答数据集的构建. 下面是一些构建的数据集中
                 的示例.
                    ● Q: 在铅和锡中, 哪种材料的熔点更高?
                    ● A: 铅的熔点更高, 为    327 °C.
                    ● 对应知识三元组: “[ 铅, 熔点, 327 °C]”“[ 锡, 熔点, 232 °C]”.
                    ● Q: 聚三氟氯乙烯    (PCTFE、F-3) 的长期使用温度是多少?
                    ● A: 聚三氟氯乙烯    (PCTFE、F-3) 的长期使用温度是在−195 °C–190 °C     之间.
                    ● 对应知识三元组: “[‘聚三氟氯乙烯         (PCTFE、F-3)’, ‘特性’, ‘耐热性、电性能和化学稳定性仅次于             F-4, 在
                 180 °C  的酸、碱和盐的溶液中亦不溶胀或侵蚀. 机械强度、抗蠕变性能、硬度都比                         F-4  好些, 长期使用温度为
                 −195 °C–190 °C  之间, 但要求长期保持弹性时, 则最高使用温度为           120 °C. 涂层与金属有一定的附着力, 其表面坚
                 韧、耐磨, 有较高的强度’]”.
   147   148   149   150   151   152   153   154   155   156   157