Page 292 - 《软件学报》2025年第10期

P. 292

李靓果等: 结合大语言模型和领域知识库的证券规则规约方法 4689

● 实验步骤和结果. 由于我们的方法仅适用于简体中文文本, 在处理英文、日文及繁体中文表示的业务规则
前, 我们首先借助谷歌翻译将这些文本转换为简体中文. 转换完成后, 我们逐一对照原文, 对翻译中存在的误差和
不流畅之处进行了手动修正, 确保了业务规则表述的通顺和准确性. 接着, 我们将这些简体中文的业务规则输入到
我们的工具中, 生成相应的需求规约. 对于 GPT-4 和 GLM-4 模型, 考虑到它们本身具备处理英文、日文和繁体中
文的能力, 为了确保比较的公平性, 我们直接将原始规则文本输入到这些大模型中, 得到了对应的需求规约. 然后,
我们将这些需求规约翻译为简体中文, 以便计算其功能点识别率. 最后, 我们使用实验 1 中提到的算法来自动计算
我们的方法以及 GPT-4 和 GLM-4 生成规约的数据流数目和功能点识别率, 结果如表 6 所示.
从表 6 中我们可以发现, LLSec 在 5 个数据集上生成需求规约的功能点识别率最高, 优于 GPT-4 和 GLM-4,
并且展现出了较高的稳定性. 具体来看, GPT-4 在处理纽约交易所的业务规则 (数据集 10 和 11) 时, 功能点识别率
达到了 70% 以上, 但在面对东京交易所的规则 (数据集 12 和 13) 时, 识别率下降, 甚至不足 60%. GLM-4 的表现也
显示出了一定的波动性. 相比之下, 我们的方法在不同交易所的数据集上不仅达到了 80% 左右的功能点识别率,
而且数据集之间的识别率差异不超过 7%. 这显示了我们的方法在不同制度体系下的准确性和稳定性.
此外, 相较于实验 1 的结果 (表 4), 我们的方法在处理不同制度体系下的业务规则并生成需求规约的过程中
功能点识别率的下降幅度相对较小. 我们的方法最初是基于深圳和上海证券交易所的业务规则进行精心设计和完
善的. 在这两个交易所的相关规则文档评估中, 我们实现了高达 90% 的功能点识别率. 尽管如此, 当我们的方法应
用于纽约、东京等具有不同制度体系的业务规则时, 仍然展现出了强劲的处理能力. 在这些情况下, 功能点识别率
的平均降幅大约为 10%, 虽然略低于领域专家的水平, 但仍然优于非专家、GPT-4 和 GLM-4 的表现. 这一结果进
一步表明了我们的方法具有较强的适应性和通用性, 即便在面对多样化的制度和文化背景时, 该方法仍能保持高
性能的表现, 这对于跨文化、跨制度环境下的业务规则处理具有重要的实际意义和应用价值.
尽管如此, 我们的方法在处理不同制度体系下的业务规则时功能点识别率仍略有下降. 通过对工具生成需求
规约的分析, 我们认为原因主要来源于训练数据和领域知识的不足. 不同制度体系下的业务规则具有不同的规则
表达方式、专业术语和领域知识. 为了提高本文方法在不同制度体系下的功能点识别率, 我们考虑使用多语言和
多文化的证券领域交易规则数据集对筛选模型和需求信息抽取模型进行上下文学习或微调训练, 以提高模型在处
理不同语言表述的业务规则时的泛化能力. 此外, 我们还考虑融入专业知识, 将新的领域知识加入训练集和领域知
识库, 以方便模型和算法更好地理解和处理专业术语和规则.
● RQ4 结论: 尽管证券领域不同制度体系下的业务规则存在差异, LLSec 在解析业务规则文档生成需求规约
的任务中实现了 80% 左右的功能点识别率. 这一结果也表明了本文方法的通用性.

5 有效性威胁

在本节中, 我们将从内部效度、外部效度、构建效度和可靠性这 4 个方面对有效性威胁进行分析和讨论.
(1) 内部效度. 1) 大语言模型的局限性. 本文方法利用大语言模型强大的自然语言处理能力, 对自然语言规则
进行了有效的过滤和抽取. 对于业务规则过滤任务, 我们通过对模型进行微调可以显著提高其分类的质量; 而对于
需求信息抽取任务, 采用上下文学习方法则更为合适. 然而, 这一结论不一定适用于其他领域. 此外, 由于模型自身
的局限性, 比如上下文窗口大小的限制和对隐含信息的理解不足等, 可能无法保证抽取结果完全无误. 为了解决这
一问题, 我们在模型的输出后实施了人工审核流程, 以确认和验证抽取的信息, 从而增强了抽取结果的可靠性.
2) 领域知识的完备性. 从业务规则文档生成需求规约涉及各种领域知识, 我们通过不同方式整合和利用这些知识,
包括通过训练数据或提示词的方式将隐式知识自然融入大语言模型以及构建外部知识库, 从而增强模型针对特定
领域的自然语言处理能力, 并结合外部领域知识库生成高质量的需求规约. 在我们的方法中, 业务规则过滤和需求
信息抽取主要通过知识适配后的大语言模型完成, 而需求可操作化和关系识别则极大地依赖于外部知识库的充分
性. 领域知识库的不完备可能导致需求可操作化不充分或关系识别不完整, 进而影响生成需求规约的质量. 为应对
这一挑战, 我们需要不断地完善和更新领域知识库, 以确保覆盖更加全面的业务逻辑.

287 288 289 290 291 292 293 294 295 296 297