Page 275 - 《软件学报》2025年第10期
P. 275

4672                                                      软件学报  2025  年第  36  卷第  10  期


                 evaluation  results  show  that  the  proposed  approach  can  process  business  rule  documents  in  various  securities  trading  fields,  achieving  an
                 average  function  point  identification  rate  of  91.97%  on  the  evaluation  dataset,  which  matches  or  even  surpasses  the  level  of  experts  in  the
                 domain, with the efficiency improved by an average of 10 times compared to human participants.
                 Key words:  securities domain; business rule; requirement specification; large language model (LLM); domain knowledge; software requirement
                    业务规则在证券领域扮演着关键角色, 它们是一系列指导和控制证券市场运作的规定和指南. 这些规则不仅
                 详细规定了交易行为, 如交易的时间、数量和价格等, 也对市场参与者的行为进行了详细的监管和规范. 证券交易
                 所的业务规则文档在约束和指导券商以及其他交易参与者的行为方面发挥着至关重要的作用. 各大证券交易所都
                                                                                   [1]
                 有一套详细的业务规则文档来定义和约束交易, 如《深圳证券交易所债券交易规则》 、《上海证券交易所交易
                 规则》 等. 在开发交易系统时, 券商必须严格遵循这些文档中规定的规则. 这些业务规则是证券交易系统需求和
                      [2]
                 约束的来源, 其中与软件需求相关的部分将被用作交易系统软件需求规约的一部分, 以便进行设计、实现和测试.
                 如何从自然语言描述的业务规则文档中发现需求, 进一步挖掘这些需求之间的关系以形成软件需求规约, 是交易
                 系统开发中的一个关键问题. 随着市场的快速发展和监管要求的不断变化, 业务规则展现出易变性. 在这种背景
                 下, 如何提高业务规则规约的效率成为一个关键问题.
                    目前, 业内主要采用人工的方法进行业务规则的规约, 手动抽取业务规则中与软件需求相关的表示, 并识别其
                 中的关系, 形成可测试的软件需求. 与法律            [3,4] 、交通  [5] 等领域的规则文档不同, 证券领域中交易规则文档自动规
                 约存在如下挑战: (1) 以不受限的自然语言表述的业务规则中包含了大量证券领域专业术语, 难以抽取和理解;
                 (2) 业务规则的表达中存在许多省略和抽象的表达, 需要对其进行可操作化; (3) 业务规则之间存在着复杂的隐式
                 关系. 这些挑战不仅要求有强大的自然语言处理能力, 还要求具备相应的领域知识, 以便实现自动的专业术语识别、
                 需求可操作化以及需求隐式关系识别. 领域知识对于实现业务规则的自动规约至关重要, 因此, 如何将领域知识融
                 入规约过程成为自动化的关键.
                    学术界已有众多研究致力于本体制导的软件需求规约过程                     [6−9] , 它们利用本体这种知识库提供领域知识, 从而
                 进行软件需求的规约. 随着大语言模型的兴起, 其所具备的广泛“世界知识”                     [10] 引起了学术界的关注, 一些学者开始
                 研究这些模型是否掌握了专业知识. 研究表明, 大语言模型在知识密集领域缺乏专业领域知识                              [11] . 我们的实验也
                 证实了现有的大语言模型在证券领域交易规则文档中的领域知识不足. 受其他领域知识图谱和大语言模型结合工
                 作  [11–13] 的启发, 本文提出了一种结合大语言模型和领域知识库的证券领域业务规则自动规约方法. 在这个方法中,
                 我们首先利用     ChatGPT [14] 等大语言模型强大的自然语言处理能力, 通过微调、上下文学习等手段嵌入隐式的领域
                 知识, 进行软件需求信息抽取. 接下来, 我们结合领域知识库中显式可表达的知识进行了需求的可操作化和关系识
                 别, 生成数据流形式的软件需求规约. 这为专业知识密集型文档的处理和规约提供了一种有价值的借鉴. 本文的主
                 要贡献如下.
                    (1) 提出了一种证券领域业务规则自动规约方法, 该方法结合了大语言模型和领域知识库, 可以从不受控的自
                 然语言业务规则文档自动生成需求规约, 减轻需求工程师的工作负担, 提高了业务规则规约的效率.
                    (2) 设计了一种将领域知识有效整合到自动化需求规约中的方法, 通过大语言模型的微调、上下文学习等执
                 行领域知识相关的自然语言处理任务, 并建立领域知识库进行关系识别, 从而生成面向功能的数据流, 保证了需求
                 规约生成的质量.
                    (3) 基于提出的方法, 设计实现了证券领域业务规则自动规约工具                   LLSec, 并在  5  个证券交易领域中进行了方
                 法评估. 评估结果表明, 本文生成的需求规约在评估数据集上的平均功能点识别率为                           91.97%, 达到甚至超越了领
                 域专家的水平, 且效率比人类参与者平均提高了               10  倍.
                    本文第   1  节详细讨论证券领域业务规则规约中遇到的具体问题, 并据此定义方法框架. 第                        2  节给出本文模型
                 的训练及领域知识库的构建. 第          3  节提供方法的实现细节. 第      4  节进行案例研究和实验评估. 第        5  节对有效性威胁
                 进行讨论. 第   6  节比较了相关工作. 最后第       7  节总结全文, 并对未来工作进行展望.

                  1   方法框架

                    本节将通过案例详细说明证券领域业务规则规约中遇到的具体问题, 探索了直接使用大语言模型的限制, 并
   270   271   272   273   274   275   276   277   278   279   280