Page 294 - 《软件学报》2025年第10期
P. 294
李靓果 等: 结合大语言模型和领域知识库的证券规则规约方法 4691
领域的 60 余个软件工程合同数据集中的安全性和隐私性要求以微调的方式嵌入到大语言模型中, 作为额外的知
识提高大语言模型的准确性. Arora 等人 [36] 评估了大语言模型在需求工程领域的需求获取、分析、规约和验证阶
段的应用潜力. 目前, 学术界已经有工作研究将大语言模型与知识图谱等语义网络技术集成, 以增强其在需求抽取
和形式化表达中的生成效能和语义精确度 [11–13] . 与这些工作相比, 本文方法是首次结合大语言模型与领域知识, 应
用在软件的功能需求规约上.
6.2 业务规则规约
目前, 并不存在完全自动化的业务规则规约方法, 但在业务规则的分类、需求信息抽取以及关系识别都已经
有一些工作. 现在已经有很多基于机器学习的业务规则分类工作. 比如, Lafi 等人 [37] 提出了一种对不同类型的业务
规则进行分类的方法, 将业务规则分类为定义性规则、数据规则、活动规则和参与方规则. 他们使用一种包含多
个阶段的训练数据的管道方法来训练机器学习模型, 从而将业务规则自动分类, 进而增强软件需求的明确性和组
织性. Herbst 等人 [38] 也对规则进行了分类, 他们针对数据库系统定义了一致性规则以及对有效数据库状态的完整
性约束. 但是这些工作并没有对是否与软件需求相关进行分类.
目前, 大部分业务需求信息抽取工作仍然依赖人工完成, 许多研究采用手动方式将业务规则表示为形式化的
逻辑表达式, 如对象约束语言 (object constraint language, OCL) [39] 、自定义的业务规则建模语言 [40] 、语义业务词汇
与规则 (semantic business vocabulary and rules, SBVR) [41,42] 、礼貌逻辑程序 (courteous logic program, CLP) [43] 、
基于 XML 的业务规则标记语言 (business rules markup language, BRML) 等, 以清晰地描述业务规则以及这些规则
之间的优先级和冲突关系. 与此同时, 也存在一些自动抽取业务规则的工作. 这些工作主要从自然语言规则文档中
抽取相关信息, 将业务规则表示为某种表达形式. 例如, Bajwa 等人 [44] 提出了一种基于规则的算法对英语自然语言
文档进行语义分析, 将自然语言规范翻译成 SBVR 业务规则. Chittimalli 等人 [45] 提出了一种无监督的启发式方法,
基于词性标注和句法分析进行实体抽取, 并将它们持久化到 SBVR 元模型中. Holter 等人 [46] 使用序列标注和少量
学习识别需求语句中语义成分, 包括范围、条件和需求. Zhang 等人 [47] 提出了使用微调的 BERT 模型来提取文档
中关键信息的方法, 他们的研究表明 BERT 只需要少量的训练数据 (少于 100 篇文档) 就能达到合理的精度. 这些
规则和训练数据都是一种领域知识的嵌入.
此外, 有研究关注从抽象规则到具体规则的转换. 例如, Kardasis 等人 [48] 定义了抽象业务规则, 包括意图型规
则和可操作化规则, 并指出要基于信息系统架构分析将高层的意图转换为具体需求和规约. 该方法支持业务规则
的抽象到具体可实现的业务规则的精化关系, 信息系统架构就是其领域知识, 但只适用于一般的信息系统.
也有一些研究关注业务规则关系发现和识别. 例如, Bhattacharyya 等人 [49] 基于启发式规则, 使用最大熵分类
器提取规则意图之间的成对关系, 将单个规则拆解为多个规则意图, 从而识别规则意图之间关系. 这种方法本质上
探索的是业务规则内的关系. Schlutter 等人 [50] 提出一种从自然语言需求中提取知识并将其转化为语义关系图的方
法. 输出的语义关系图可以用来进一步分析和理解需求, 帮助软件开发人员和项目管理人员更好地理解和组织需
求信息. Mahgoub 等人 [51] 描述了一种从文本文档集合中自动提取关联规则的文本挖掘技术. 这种技术依赖于关键
词特征来发现标记文档的关键词之间的关联规则, 从大量文本数据中提取有意义的模式和关系. 上面的关系识别
工作主要集中在规则内部概念或关键词之间的显式关联上. 相比之下, 证券领域业务需求间的关系识别更加关注
规则之间的隐式依赖关系, 特别是它们之间存在的一些基于操作序列的隐式关系, 不能通过文本特征去识别. 因
此, 我们的方法强调结合领域知识与大语言模型结合.
7 总 结
本文提出了一种结合大语言模型和知识库的证券领域业务规则自动规约方法, 从不受控的自然语言业务规则
文档中自动生成需求规约. 这种方法不仅减轻了需求工程师的工作负担, 也显著提高了业务规则规约的效率. 实验
结果在 5 个不同的证券交易领域中证明了本文方法的有效性, 本文的工具在评估数据集上的平均功能点识别率
为 91.97%, 达到甚至超越了领域专家的水平, 且平均效率提高了 10 倍. 本文的方法和工具为证券领域业务规则的

