Page 280 - 《软件学报》2025年第10期
P. 280
李靓果 等: 结合大语言模型和领域知识库的证券规则规约方法 4677
格、数量等 7 类不同的约束. 每类约束之间都由“与”或者“或”连接. 具体而言, 时间约束、价格约束、数量约束分
别是指约束子句在时间、价格、数量方面的约束. 例如, “每个交易日的 9:00–11:30”就是对交易时间的约束. 交易
方式约束是对交易规则中交易方式的限制, 在不同证券产品或市场的交易中, 交易方式可以采用多种形式. 以债券
交易为例, 常见的交易方式包括匹配成交、点击成交和竞买成交等. 对于证券领域, 交易品种约束主要包含股票、
债券、基金等. 交易结果约束主要表现为规则中包含的成功、失败等交易结果. 交易操作约束由操作人、操作和
操作部分组成, 例如, 对于“债券投资者提交应价申报”, “债券投资者”为操作人, “提交”为操作, “应价申报”为操作
部分. 在证券交易中, 操作人主要分为 5 类, 分别为交易所、券商、投资者、发行人以及监管机构.
与/或/依赖关系
时间约束 条件 规则 结果 与关系
0..* 1 1 1 1
1 1..* 1..* 1
价格约束 约束子句 关系 或关系
0..* 1 0..*
0..1 0..* 0..1 0..1
数量约束 交易方式约束 交易操作约束 交易品种约束 交易结果约束
0..*
1
0..* 0..* 0..*
操作 操作人 操作部分
交易所 券商 投资者 发行人 监管机构
图 3 证券领域需求元模型
(2) 设计需求信息抽取实体类型. 为了提高信息抽取的精确度, 我们基于上述的元模型设计了一系列实体类
型, 用以定义规则中对应的实体, 从而使得信息抽取模型更专注于与这些类型相关的信息, 减少误报和漏报. 实体
类型包含交易品种、交易方式、时间、价格、数量、结果, 这与我们元模型中的概念一致. 此外, 根据元模型中的
交易操作约束概念, 实体类型还包含操作人、操作和操作部分. 为了建立需求间的依赖关系, 我们定义了事件和状
态, 事件表示规则中提到的前置或后置条件, 状态指示规则所处状态, 它们还可以结合状态机进行进一步的规则推
理. 我们注意到, 一条规则有时会引用另一条规则中的相关约束, 为此我们增加了结合规则, 用以关联其他规则. 此
外, 我们还定义实体类型操作符用于指示比较关系的词, 如大于、不足等.
特别地, 我们创新性地引入了键 (key) 和值 (value) 两种实体类型, 以提示模型识别抽取元模型中未包含的概
念. 在业务规则文档中, 每条规则有着其独特的约束, 它们往往不会在文档中重复出现. 例如, 在《深圳证券交易所
债券交易规则》文档中, 只有规则“采用匹配成交方式时, 债券现券的申报价格最小变动单位为 0.001 元”涉及对
“申报价格最小单位”的约束. 应用上述方法, “申报价格最小单位”将被识别为键. 通过实施键-值抽取策略, 我们有
效避免了关键信息的丢失, 从而确保信息抽取的全面性和准确性.
最后, 我们针对证券领域业务规则文档的信息抽取制定了共 15 种实体类型, 分别为交易品种、交易方式、时
间、价格、数量、结果、操作、操作人、操作部分、事件、状态、结合规则、操作符、键以及值. 这些实体类型
将被用于指导基于大语言模型的信息抽取.
(3) 创建需求信息抽取模型的提示词. 抽取模型的提示词主要包含两部分: 任务说明提示词和示例驱动提示
词. 任务说明提示词向 GPT-4 介绍要完成的任务, 即解析证券交易规则并进行需求信息抽取, 并对任务中的实体
类型定义、输出格式规定、特殊标注指导等细节进行了详细解释, 以确保模型能够正确理解并进行抽取. 为进一
步提高信息抽取的准确率, 并确保输出的格式符合预期, 我们为需求信息抽取模型提供了来自不同文档的 100 条
具体规则及其预期的信息抽取输出作为示例驱动提示词. 这些示例被纳入 GPT 的知识库中, 作为模型学习和参考
的依据. 需求信息抽取模型使用的具体提示词及其设计如图 4 所示.
为了评估创建的需求信息抽取模型的效果, 我们将 3 篇业务文档中所有需求相关的规则依次输入到需求信息

