Page 491 - 《软件学报》2025年第10期
P. 491

4888                                                      软件学报  2025  年第  36  卷第  10  期


                                300
                                        λ 0
                                        λ 0.0001
                                250
                                        λ 0.0002
                                        λ 0.0003
                               #Retained channels  150  λ 0.0005
                                200
                                        λ 0.0004
                                        λ 0.0010
                                100

                                 50

                                  0
                                     1  2  3  4  5  6  7  8  9  10  11  12 13 14 15 16 17 18 19
                                                             Layer
                                图 4 CIFAR-100  数据集上二值网络在不同正则化系数            λ 下的通道数结果


                       70                                   表 7 CIFAR-100  数据集上不同正则化系数        λ 的结果
                                                              正则化系数  λ  通道去除率      参数量 (M)   准确率 (%)
                     准确率 (%)  69             我们的方法             0.000 1    10.32      3.54      69.54
                                                                          17.11
                                                                                     2.98
                                                                                               69.36
                                                               0.000 2
                       68
                                             全精度网络             0.000 3    20.97      2.73      68.46
                       67                                      0.000 4    26.31      2.37      68.28
                         0  0.2  0.4  0.6  0.8  1.0  1.2  1.4  0.000 5    31.36      2.03      67.98
                                   存储量 (MB)                    0.001      50.84      0.99      62.07
                    图 5    CIFAR-100  数据集上我们的方法得到的
                         二值神经网络和全精度网络对比
                    我们利用知识蒸馏进一步提高了我们模型的性能. 宽度为                   8 的二值化   ResNet-20 被用作教师网络, 其准确率为
                 74.68%. 温度  τ 和平衡系数分别设置为       3.0  和  0.8. 我们模型的准确率提高到     70.52%, 高于全精度基线的准确率
                 69.78%.
                    为了更直观地对比我们的方法和全精度网络的效果, 我们在图                     5  中对比了准确率、存储开销的关系曲线. 计
                 算开销和存储开销成正比, 这里不再列出. 从图中可以看出, 我们的方法只需要                        40%  以内的存储量就能达到和全
                 精度网络接近的准确率.
                  4.5   ImageNet 实验
                    (1) 不同宽度的结果
                    对于  ImageNet, 我们在二值化    ResNet-18  和  VGG16  网络上做了实验. 首先, 网络加宽后的结果如表          8  和表  9
                 所示. 对于  ResNet-18, 加宽  5  倍的二值网络的准确率超过了全精度网络. 对于             VGG16, 加宽  4  倍的二值网络的准
                 确率与全精度网络相当. 这些实验也验证了更多的量化特征有利于量化网络性能的提高.

                      表 8 ImageNet 数据集上   ResNet-18  加宽             表 9 ImageNet 数据集上   VGG16  加宽
                               不同宽度的结果                                       不同宽度的结果

                  比特数     宽度    top-1准确率 (%)  top-5准确率 (%)      比特数    宽度     top-1准确率 (%)  top-5准确率 (%)
                    32     1        70.79         89.5           32      1       71.41         90.47
                    1      1        52.6          76.84           1      1       65.99         86.57
                    1      2        63.73         85.3            1      2       69.85         89.33
                    1      3        68.07         87.92           1      4       71.01         90.02
                    1      4        69.74         89.05
                    1      5        71.08         89.74
   486   487   488   489   490   491   492   493   494   495   496