Page 276 - 《软件学报》2025年第10期
P. 276
李靓果 等: 结合大语言模型和领域知识库的证券规则规约方法 4673
据此定义解决方法框架.
1.1 具体问题分析
本节将详细讨论在证券领域业务规则规约中面临的问题.
第一, 必须要确定哪些业务规则与软件需求相关. 在证券领域的业务规则中, 存在一部分规则与软件的直接功
能无关. 这些规则通常涉及市场操作的法规、合规性标准以及交易伦理等, 它们描述了市场行为的法律约束和道
德框架, 但并不直接对软件的操作功能提出要求. 因此, 我们的目标是识别并筛选出那些与软件功能性需求直接相
关的有意义规则. 《深圳证券交易所债券交易规则》 中的规则片段如案例 1 所示. 其中, 规则 3.1.3 与软件需求
[1]
没有直接关联, 因为该规则主要描述了交易所在市场的管理职责和行为, 并未直接指导或要求软件实现特定的功
能或操作. 而其他 4 条规则指定了交易软件在处理债券交易时必须遵循的要求, 是软件需求分析和实现的重要依
据. 因此, 我们需要过滤掉规则 3.1.3, 保留软件需求相关的其他规则.
案例 1: 深圳证券交易所债券交易规则
规则 3.1.3. 本所可以对债券交易方式实施动态调整并及时向市场公布.
规则 3.1.5. 采用匹配成交方式的, 每个交易日的 9:15–9:25 为开盘集合匹配时间, 9:30–11:30、13:00–15:30 为
连续匹配时间; 采用点击成交、询价成交和协商成交方式的, 交易时间为每个交易日的 9:00–11:30、13:00–20:00.
规则 3.3.4. 采用匹配成交方式的, 债券现券的申报数量应当为 10 万元面额或者其整数倍, 卖出时不足 10 万
元面额部分, 应当一次性申报; 债券通用质押式回购的申报数量应当为 1 000 元面额或者其整数倍.
规则 4.4.4. 竞买日前, 卖方可以修改竞买预约要素或者取消预约.
规则 4.1.10. 每个交易日 9:20–9:25 的开盘集合匹配阶段, 本所交易系统不接受匹配成交的撤销申报.
第二, 证券领域的业务规则使用不受限的自然语言表达, 并且包含大量的领域术语, 导致需求信息的提取变得
困难. 上述的规则 3.3.4 展现了典型的证券领域业务自然语言规则文本的特点: 结构上复杂多变, 内容上包含大量
领域术语以及存在一定程度的省略现象. 具体而言, 规则中包含了多个子句, 每个子句针对不同的交易类型有着不
同的申报数量要求, 在表达上展现出复杂的层次关系和细节分化, 使得整体理解具有一定的挑战性. 此外, 规则中
的“匹配成交方式”“债券现券”“一次性申报”“债券通用质押式回购”等词都是典型的证券领域术语而不是通用词
汇. 这些文本特征使得传统的基于规则的提取方法效果不佳.
第三, 证券行业的业务规则经常包含抽象表达或依赖于特定上下文的表示方式. 为了生成可操作的需求规约,
必须对抽象概念进行具体化, 并通过上下文推断补全相关的约束, 以确保每条规则都包含完整的约束条件并且可
执行. 例如, 案例 1 中的规则 4.4.4 不是一个直接可执行的规则, 因为它缺少交易市场、交易方式和交易品种等必
要信息. 此外, “竞买预约要素”作为一个抽象概念, 需要进一步细化为具体的要素内容, 包括“竞买方式”“证券代码”
等. 只有在这些额外信息得到补充后, 该规则才能变得具体、明确且可执行.
第四, 证券行业的业务规则之间存在着大量隐式的依赖关系, 这意味着需要考虑规则的执行顺序和相互影响.
理解这些依赖关系对于准确执行和应用规则至关重要. 例如, 案例 1 中的规则 4.1.10 规定了与撤销申报相关的时
间, 该规则的有效执行前提是存在一笔已申报的订单. 因此, 它依赖于与申报相关的规则, 比如上述规定了申报数
量的规则 3.3.4. 这种依赖关系表明, 一个看似独立的规则实际上可能与其他多个规则紧密相连, 需要在更广泛的
规则体系中考虑其应用和实施.
综上, 我们发现, 证券领域业务规则规约自动化面临的挑战主要来源于领域知识. 前两个问题属于自然语言处
理任务, 涉及的领域知识都比较隐式. 后两个问题则需要结合领域知识对需求进行可操作化和关系识别, 其中的领
域知识可以显式表示. 因此, 如何有效地将隐式和显式的领域知识嵌入规约过程成为关键问题.
1.2 大语言模型的试用
大语言模型通过海量文本的训练获得了广泛的“世界知识” [10] , 可能已经具备了相关的领域知识. 为了探索这

