Page 282 - 《软件学报》2025年第10期
P. 282
李靓果 等: 结合大语言模型和领域知识库的证券规则规约方法 4679
超时
委托 撤销委托 委托
未委托 已委托 委托失效
已撤销
撤销申报失败 申报 撤销申报失败
委托失败 未成交 部分成交 全部成交
部分交易 继续部分交易
全部交易
撤销申报
委托失败
图 5 债券交易状态机
3 方法细节
3.1 需求信息抽取
对于需求信息抽取, 考虑到基于自然语言的业务规则具有高度的非结构性, 格式多样且语法复杂, 直接对原始
规则进行信息抽取可能无法理解规则的准确语义, 导致抽取的准确度不高. 因此, 我们首先使用 GPT-4 对原始的
业务规则进行预处理. 在此基础上进行信息抽取, 最后组装成形式化需求.
(1) 文本预处理. 这一步使用 GPT-4 将复杂的、表达不规范的业务规则进行简化和明确化. 提示词的内容主
要包含两部分: 任务说明提示词和示例驱动提示词. 第 1 部分向 GPT-4 介绍要完成的任务, 即解析和简化证券交
易的复杂业务规则, 并提出了一些具体的要求, 如针对指代、倒装、省略等情况的处理以及复杂情况分解成简单
明确子规则的要求. 第 2 部分则提供了一个完整的示例, 用于展示期望的输出格式和处理方法, 帮助模型理解如何
应用上述的任务说明, 并确保输出格式一致. 具体的预处理提示词及其设计如图 6 所示.
图 6 预处理提示词
预处理过程不仅需要关注文中明确表述的内容, 还需要能够理解和推断由省略所引起的隐含信息以及对复杂
的情况进行拆分. 我们以案例 1 中的规则 3.3.4 为例, 说明这一步骤应该得到的结果. 针对规则 3.3.4, 预处理阶段
会根据规则中涉及的交易品种和对应的申报数量要求, 将其拆分成 3 条子规则, 并分别识别每条子规则的条件和
结果, 同时确保每个条件都直接关联到一个明确的结果 (成功或失败). 拆分简化后的规则如下所示.
规则ID 条件 结果
3.3.4.1 采用匹配成交方式的债券现券申报, 申报数量为10万元面额或其整数倍 成功
3.3.4.2 采用匹配成交方式, 卖出时债券现券申报数量不足10万元面额, 但一次性申报全部数量 成功
3.3.4.3 采用匹配成交方式的债券通用质押式回购申报, 申报数量为1 000元面额或其整数倍 成功

