Page 291 - 《软件学报》2025年第10期
P. 291

4688                                                      软件学报  2025  年第  36  卷第  10  期


                 GLM-4  以及  LLSec 中, 得到相应的需求规约. 此外, 我们设置了一个消融实验, 将我们的方法中的领域知识库置
                 空, 目的是探索知识对生成需求规约的功能点识别率的影响. 在任务设置上, 我们额外提示实验的每位参与者与大
                 语言模型注意识别需求间的依赖关系, 并使用实体类型标签“状态”来标记具有依赖关系的数据流. 需求规约生成
                 后, 我们使用实验     1  中的算法来计算数据流数目和功能点识别率. 实验结果如表                 5  所示.

                         表 5 在  4  个具有不同功能数和依赖关系数的独立同分布的数据集上与领域专家、非专家和
                                    通用大语言模型在生成规约的数据流数量和功能点识别率对比

                           数据集特征          领域专家       非专家        GPT-4     GLM-4       LLSec      LLSec
                 数据集                                                              (无领域知识库)
                       #规则 #DF #依赖关系 #DF FPI (%) #DF FPI (%) #DF FPI (%) #DF FPI (%)  #DF  FPI (%) #DF FPI (%)
                   6     5   24    0     47  95.83  16  75.00  48  79.17  25  78.33  16  70.00  198  90.00
                   7    10   42    0     73  92.24  47  69.99  107  77.46  50  73.41  36  71.02  358  90.60
                   8    10   86    8     63  88.09  51  58.12  87  67.71  44  64.19  30  58.72  333  94.31
                   9    11  186    42    72  78.28  76  51.79  81  51.28  52  55.15  37  44.49  524  94.29

                    从表  5  中我们发现, 领域知识对生成规约的质量具有显著的影响. 随着数据集包含的数据流数和关系数的增
                 加, 领域专家、非专家、GPT-4        和  GLM-4  在数据集上生成的规约的功能点识别率均呈现出下降趋势, 而                   LLSec
                 则相对稳定, 甚至在功能和关系数增多时不降反升. 通过对实验数据的分析, 我们发现领域专家具有丰富的领域知
                 识, 能够补充和关联大部分的需求, 但当规则复杂度提升时容易产生遗漏和错误, 导致功能点识别率逐渐下降. 对
                 于非专家、GPT-4    和  GLM-4, 我们发现它们虽然具备一定程度的知识, 但知识水平有限, 因而在部分需求的理解
                 和补充上表现不佳, 功能点识别率相对较低. 与此相反, 我们的                  LLSec 方法通过需求可操作化和关系识别步骤有
                 效利用了证券领域的交易概念和交易操作序列等专业知识, 生成数据流的功能点更加具体和全面. 特别地, 当我们
                 实验中将   LLSec 的外部领域知识库置空后, 其生成的需求规约的功能点识别率产生了明显下降, 甚至低于人类测
                 试者和一般通用大模型. 这一结果进一步强调了领域知识在生成高质量需求规约中的关键作用, 从而证实了外部
                 知识库的应用对于提升需求规约质量的重要性.
                    ● RQ3 结论: 外部知识库对提高需求规约的质量影响显著. LLSec 有效利用了外部知识库, 因而在处理功能数
                 和关系数各异的规则时, 展现出了较高的和稳定性的功能点识别率.
                  4.2.4    RQ4: 方法的通用性
                    ● 数据集和对比对象. 为了全面探讨和验证本文方法在不同制度体系下证券交易市场中的通用性, 我们收集
                 了纽约证券交易所、东京证券交易所和香港证券交易所的相关规则文档, 从中挑选股票、债券等                                5  个具有代表性
                 的业务领域, 并筛选出涉及这些业务的所有规则, 构成了                 5  个评估数据集    (数据集  10–14). 其中, 数据集  10  为纽约
                 证券交易所股票交易规则         [29] , 数据集  11  为纽约证券交易所交易和结算规则       [29] , 数据集  12  为东京证券交易所股票
                 经营规定   [30] , 数据集  13  为东京证券交易所债券经营规定       [30] , 数据集  14  为香港证券交易所交易机制     [31] , 每个数据
                 集的规则数等特征展示在表          6  中. 这些来自不同交易所的业务规则分别以英文、日文和繁体中文编写, 在内容和
                 表达方式上存在较大的差异. 鉴于领域专家和非专家对纽约、东京等交易所的交易规则不够熟悉, 存在认知偏差
                 和较高的时间成本问题, 这里我们仅将我们的方法与                 GPT-4  和  GLM-4  两种大语言模型进行比较.

                           表 6 在   5  种不同制度体系下的证券领域业务规则数据集上生成规约的数据流数量和
                                         功能点识别率以及与        GPT-4  和  GLM-4  模型的比较

                                     数据集特征                 GPT-4          GLM-4           LLSec
                       数据集
                               #规则     #DF   #依赖关系      #DF   FPI (%)  #DF   FPI (%)   #DF   FPI (%)
                        10      10     44       7       48     73.15    56    68.93    579    82.95
                        11       9     28       4       30     72.12    76     56.5   2 497   76.68
                        12      12     30       6       27     55.04    62    51.79    368    77.67
                        13       9     22       5       20     56.49    36    52.91    537    81.6
                        14      12     38       5       25     60.24    52     69.2   3 062   79.84
   286   287   288   289   290   291   292   293   294   295   296