Page 51 - 《软件学报》2025年第12期
P. 51

5432                                                      软件学报  2025  年第  36  卷第  12  期


                 地判断接管绩效. 本研究提出了一种基于场景研究绩效预测任务的新范式和构建预测模型的新框架, 为了验证该
                 框架的先进性, 为了验证本方法的先进性, 我们选取了几种经典的机器学习                        [48] 算法作为基准模型进行比较, 包括
                 随机森林   (RF)、K-最近邻    (KNN)、朴素贝叶斯     (NB) 和逻辑回归    (LR). 在设置基准方法的超参数时, 随机森林中
                 设置决策树个数为       100, 深度为  10, 衡量指标为基尼系数; KNN     聚类个数、LR     分类类别数与绩效分类类别数据一
                 致, 均设置为   3; NB  中平滑强度设置为     1. 详细的实验结果见第      4.3  节.
                    SHAP  模型作为一种解释性工具, 其评价主要集中在解释一致性、解释有效性以及实用性和可视化方面. 具
                 体而言, Shapley  值与特征重要程度正相关, 可以保证特征重要性分数的一致性; 通过计算每个特征对预测结果的
                 贡献度, SHAP  模型能够解释模型的输出, 从而确保模型的有效性.
                  4.3   实验结果
                  4.3.1    基于多模态数据的深度神经网络接管绩效预测模型预测结果
                    为了验证这个问题的结果, 我们使用从             1–10 s 的输入时间窗口对特征数据进行截取, 截取开始的时刻为接管
                 请求发出时刻前输入时间窗口数值的时刻, 数据截取的结束时刻为接管请求发出时刻. 然后使用深度神经网络模
                 型与随机森林     (RF)、K-最近邻   (KNN)、朴素贝叶斯      (NB)、逻辑回归    (LR) 在  1–10 s 时间窗下构建接管绩效预测
                 模型, 比较各个预测模型的准确率, 比较不同时间窗口下和不同接管绩效预测模型. 实验的结果见表                              4.
                    在时间窗口比较长, 即能提供相较为丰富的背景信息的情况下, 本实验选用的深度学习算法显著优于传统的
                 机器学习方法, 表明相对于现有的接管预测方法更具有实用价值.
                    为了分析不同时间窗长度的多通道数据输入神经网络预测模型对结果的影响, 我们将时间窗口设为                                   1–15 s,
                 并分别对其进行训练, 得到的正确率变化趋势如图                 6  所示. 可以看到当时间窗长度为 10 s 和 15 s 时, 准确率分别
                 为  92.22%、88.68%. 当时间窗长度大于     10 s 时, 模型平均准确率均能达到 89%, 且变化不大, 说明选择发出接管
                 请求时间前    10 s 内的多通道数据作为输入已经足够. 为了防止过拟合, 当验证损失大于或等于先前的最小损失的
                 次数为   5 次时, 训练停止, 训练轮次设置为        250  次. 因此, 认为选用的时间窗口为      10 s 是合理的.

                 表 4 不同时间窗口下机器学习算法及本模型算法的
                               准确率预测结果

                  时间窗口 (s)   DNN    RF    KNN   NB     LR            0.8
                      1      0.643  0.743  0.421  0.322  0.345
                                                                     0.6
                      2      0.684  0.784  0.483  0.364  0.367
                      3      0.715  0.789  0.577  0.382  0.397      Acc  0.4
                      4      0.708  0.812  0.682  0.396  0.405
                      5      0.732  0.809  0.740  0.402  0.417
                                                                     0.2
                      6      0.817  0.812  0.802  0.425  0.421
                      7      0.834  0.832  0.856  0.440  0.427        0
                      8      0.851  0.844  0.865  0.463  0.432          0  2   4  6   8  10  12  14
                      9      0.897  0.854  0.871  0.456  0.438                   时间窗长度 (s)
                     10      0.922  0.863  0.896  0.452  0.448      图 6    不同时间窗口下模型预测准确率

                    对模型预测结果进行进一步分析, 分析其预测结果与真实结果之间的差异, 其结果如图                             7  所示. 统计结果显
                 示, 在所有评估案例中, 模型将实际上表现不佳的接管行为错误分类为其他两类                            (良好或优秀) 的情形占比为
                 5.96%; 相反, 将实际表现优秀的接管误判为不佳类别的比例则较低, 仅为                   0.63%. 这意味着, 模型在预测中出现了
                 41  例不安全接管行为被高估为安全的情况, 以及相对较少的                 4  例安全接管被误标为不安全接管的实例. 尽管存在
                 这些误差, 模型的整体分类准确率依然维持在较高水平, 彰显了其在评估接管绩效方面的稳健性和可靠性.
                    在车端部署时, 受限于车载环境中的计算资源和响应时间, 仅部署支持实时推理的离线训练模型. 模型推理时
                 间开销也是衡量模型好坏的重要指标之一. 本模型的单次平均推理时间为                        1.02 ms, 不同方法的推理时间如图       8  所
                 示. 在过往的研究中发现驾驶员在真实交通场景中的反应时间约为                      0.683 3 s [49] . 从推理效率上看, 本模型实现了与
   46   47   48   49   50   51   52   53   54   55   56