Page 280 - 《软件学报》2025年第10期
P. 280

李靓果 等: 结合大语言模型和领域知识库的证券规则规约方法                                                   4677


                 格、数量等    7  类不同的约束. 每类约束之间都由“与”或者“或”连接. 具体而言, 时间约束、价格约束、数量约束分
                 别是指约束子句在时间、价格、数量方面的约束. 例如, “每个交易日的                     9:00–11:30”就是对交易时间的约束. 交易
                 方式约束是对交易规则中交易方式的限制, 在不同证券产品或市场的交易中, 交易方式可以采用多种形式. 以债券
                 交易为例, 常见的交易方式包括匹配成交、点击成交和竞买成交等. 对于证券领域, 交易品种约束主要包含股票、
                 债券、基金等. 交易结果约束主要表现为规则中包含的成功、失败等交易结果. 交易操作约束由操作人、操作和
                 操作部分组成, 例如, 对于“债券投资者提交应价申报”, “债券投资者”为操作人, “提交”为操作, “应价申报”为操作
                 部分. 在证券交易中, 操作人主要分为          5  类, 分别为交易所、券商、投资者、发行人以及监管机构.

                                                         与/或/依赖关系
                       时间约束               条件               规则                结果              与关系
                                 0..*             1  1              1  1
                                         1               1..*  1..*            1
                       价格约束                               约束子句               关系              或关系
                                 0..*                               1  0..*
                                         0..1             0..*              0..1            0..1
                       数量约束            交易方式约束           交易操作约束            交易品种约束           交易结果约束
                                 0..*
                                                           1
                                         0..*             0..*              0..*
                                          操作              操作人               操作部分


                        交易所               券商              投资者               发行人             监管机构

                                                  图 3 证券领域需求元模型

                    (2) 设计需求信息抽取实体类型. 为了提高信息抽取的精确度, 我们基于上述的元模型设计了一系列实体类
                 型, 用以定义规则中对应的实体, 从而使得信息抽取模型更专注于与这些类型相关的信息, 减少误报和漏报. 实体
                 类型包含交易品种、交易方式、时间、价格、数量、结果, 这与我们元模型中的概念一致. 此外, 根据元模型中的
                 交易操作约束概念, 实体类型还包含操作人、操作和操作部分. 为了建立需求间的依赖关系, 我们定义了事件和状
                 态, 事件表示规则中提到的前置或后置条件, 状态指示规则所处状态, 它们还可以结合状态机进行进一步的规则推
                 理. 我们注意到, 一条规则有时会引用另一条规则中的相关约束, 为此我们增加了结合规则, 用以关联其他规则. 此
                 外, 我们还定义实体类型操作符用于指示比较关系的词, 如大于、不足等.
                    特别地, 我们创新性地引入了键          (key) 和值  (value) 两种实体类型, 以提示模型识别抽取元模型中未包含的概
                 念. 在业务规则文档中, 每条规则有着其独特的约束, 它们往往不会在文档中重复出现. 例如, 在《深圳证券交易所
                 债券交易规则》文档中, 只有规则“采用匹配成交方式时, 债券现券的申报价格最小变动单位为                              0.001  元”涉及对
                 “申报价格最小单位”的约束. 应用上述方法, “申报价格最小单位”将被识别为键. 通过实施键-值抽取策略, 我们有
                 效避免了关键信息的丢失, 从而确保信息抽取的全面性和准确性.
                    最后, 我们针对证券领域业务规则文档的信息抽取制定了共                    15  种实体类型, 分别为交易品种、交易方式、时
                 间、价格、数量、结果、操作、操作人、操作部分、事件、状态、结合规则、操作符、键以及值. 这些实体类型
                 将被用于指导基于大语言模型的信息抽取.
                    (3) 创建需求信息抽取模型的提示词. 抽取模型的提示词主要包含两部分: 任务说明提示词和示例驱动提示
                 词. 任务说明提示词向       GPT-4  介绍要完成的任务, 即解析证券交易规则并进行需求信息抽取, 并对任务中的实体
                 类型定义、输出格式规定、特殊标注指导等细节进行了详细解释, 以确保模型能够正确理解并进行抽取. 为进一
                 步提高信息抽取的准确率, 并确保输出的格式符合预期, 我们为需求信息抽取模型提供了来自不同文档的                                  100  条
                 具体规则及其预期的信息抽取输出作为示例驱动提示词. 这些示例被纳入                        GPT  的知识库中, 作为模型学习和参考
                 的依据. 需求信息抽取模型使用的具体提示词及其设计如图                   4  所示.
                    为了评估创建的需求信息抽取模型的效果, 我们将                 3  篇业务文档中所有需求相关的规则依次输入到需求信息
   275   276   277   278   279   280   281   282   283   284   285