Page 257 - 《软件学报》2025年第9期
P. 257

4168                                                       软件学报  2025  年第  36  卷第  9  期


                 4.1   数据集
                    本文的数据集主要包括         ek-prompt 所使用的原始   ECKG  的事件节点, 以及微调       GPT-3.5-Turbo  模型所需的事
                 件三元组.

                 4.1.1    ECKG  事件三元组
                    课题组成员从各类资源中手工收集了常识性的事件三元组, 并经过精细的筛选和修正, 得到了高精度的事件
                 三元组, 进而构建成了      ECKG, 表  6  展示  ECKG  中各种事件关系的三元组数量分布情况. 经去重处理后, ECKG               共
                 包含了   8 466  个事件, 这些事件主要提供给      ek-prompt 扩展因果、时序和条件关系. 此外, 对于         ek-prompt 扩展子事
                 件关系三元组所需的数据, 本文根据第            2  节的事件语义的分类, 筛选出具有子事件关系的事件为                4 484  个.

                                                   表 6 ECKG  事件三元组

                                              事件关系                 三元组数量
                                                因果                   4 810
                                                时序                   7 821
                                                条件                   7 316
                                               子事件                   1 598
                                                目标                   3 343
                                                同现                    186
                                                推出                   1 532
                                                总计                   26 606

                 4.1.2    微调模型数据集
                    在微调   GPT-3.5-Turbo  模型的过程中, 本文采用的数据集是由          ECKG  原始事件的三元组与通过        ek-prompt 生
                 成并且经过人工评估的新三元组共同组成. 微调模型主要用于生成和验证                         4  种事件关系的新三元组, 对于生成任
                 务, 需要分别为生成      ECKG  事件的头三元组和尾三元组构建数据集, 而验证任务只需要一个数据集. 每种事件关
                 系的数据集至少包含       1  万条数据, 并按照    7:2:1  划分为训练集、验证集和测试集, 表        7  详细展示了不同任务中各种
                 事件关系的数据集统计情况.

                                                  表 7 微调模型数据集统计

                              微调任务         事件关系        训练集        验证集        测试集         总计
                                            因果          8 397      2 399      1 200     11 996
                                            时序          7 070      2 020      1 010     10 100
                            生成头三元组
                                            条件          7 035      2 010      1 005     10 050
                                            子事件         7 655      2 187      1 094     10 936
                                            因果          7 150      2 043      1 021     10 214
                                            时序          7 084      2 024      1 012     10 120
                            生成尾三元组
                                            条件          7 014      2 004      1 002     10 020
                                            子事件         7 632      2 181      1 090     10 903
                                            因果          7 056      2 016      1 008     10 080
                                            时序          7 119      2 034      1 017     10 170
                            验证新三元组
                                            条件          7 030      2 009      1 004     10 043
                                            子事件         9 243      2 641      1 321     13 205

                 4.2   实验设置
                    在扩展   ECKG  三元组的任务中, 本文实现了基于           GPT-4-Turbo  模型设计的  ek-prompt、微调  GPT-3.5-Turbo
                 模型, 以及使用事件共享机制         3  个扩展策略. 在使用     GPT-4-Turbo  模型时, 本文为  4  种事件关系分别设计高质量
                 的  ek-prompt 模板. 对于微调模型生成事件三元组任务, 为了使           GPT-3.5-Turbo  模型更好地学习到每个     ECKG  事件
                 的头三元组和尾三元组的特征, 以及它们之间的紧密联系, 本文对同一种事件关系下的生成头三元组和尾三元组
   252   253   254   255   256   257   258   259   260   261   262