Page 118 - 《软件学报》2021年第8期
P. 118

2400                                   Journal of Software  软件学报 Vol.32, No.8,  August 2021

                 4.2   图像分类实验
                    图像分类任务能够体现模型量化方法的性能,可用于评估μL2Q 的有效性和优势.实验中,DNN 模型中所有
                 卷积层和全连接层(包括第 1 层和最后一层)的权值数据都被量化到相同的位宽.
                    •   数据集与模型
                    本文实验选取代表性数据集 MNIST           [34] 、Cifar10 [35] 和 ImageNet [36] ,详细信息见表 2.选取几种应用广泛的
                 DNN 模型来进行量化效果的评估,包括应用于 MNIST 的模型 Lenet-5               [34] 、应用于 Cifar-10 上的模型 CifaNet [35] ,
                                                                   [4]
                        [3]
                 VGG-like 以及应用在 ImageNet 上的模型 AlexNe     [37] ,Resnet-18 和轻量级深度模型 MobileNetV2 [38] .表 3 中展
                 示了实验中用于评估的 DNN 规模(参数量)和具体训练参数.
                                                  Table 2  Dataset attributes
                                                     表 2   数据集信息
                                                                   数据集

                                                         MNIST    Cifar10  ImageNet
                                           图像尺寸         28×28×1   32×32×1  224×224×3
                                           分类数量           10        10       1000
                                           图片数量          60 000   50 000   1 281 167
                                       总像素数量(log 10(⋅))   7.67     8.19      11.29
                                         Table 3    Model size and training parameter setting
                                                 表 3   模型规模及训练参数
                                                                  模型

                                        Lenet5  CifarNet  VGG-like  AlexNet  Resnet-18  MobileNetV2
                           参数量(M)        1.67    0.279     5.36      50.88    11.69       3.54
                            权值衰减        0.000 4   0.000 1   0.000 4   0.000 1   0.000 1   0.000 1
                            批大小          100      100       100     256×4     256×2      256×2
                           初始学习率         0.1      0.1       0.2      1.0       1.0        1.0
                          学习率衰减率         0.1      0.1       0.2      0.1       0.1        0.1
                         学习率衰减时间         32,48   120,130  250,290   50,60,65  50,60,65   50,60,65
                             动量          0.9      0.9       0.9      0.9       0.9        0.9

                    为了与最新的方法进行公平对比,实验时,对 CifarNet 使用 TWN               [16] 中应用的数据增强方法,对 ImageNet 使
                 用 Tensorflow 标准库中使用的数据增强方法.本文基于 Keras 框架进行权值量化和激活值量化等实验,由于
                 Caffe 自身难以实现复杂数据集的数据增强,所以本文仅在 Caffe 上测试了 LeNet5 的权值量化的结果.
                    •   评估
                    MNIST 和 Cifar10 数据集由于分类较少,仅有 10 个类别,因此只用 Top1 的分类精度作为 DNN 模型评估指
                 标.ImageNet 数据集有 1 000 个分类类别,因此可使用 Top1 和 Top5 的分类精度作为评估指标.
                    •   权值量化
                    不同于二值量化、三值量化等方法,μL2Q 支持灵活的量化位宽.实验结果见表 4.在 1 比特位宽下进行权值
                 量化,模型的分类精度严重下降.这是因为μL2Q 将权值量化为{−1,1},存在极大的信息损失,进而导致较大的精
                 度下降.但是从 2 比特开始,μL2Q 量化模型的精度显著提升,能够在除 MobileNetV2 外的模型上达到低于 1.58%
                 的平均精度损失(与全精度模型相比).对于轻量级模型 MobileNetV2,尽管其对低位宽量化更为敏感,但在 4 比特
                 的 MobileNetV2 量化模型上,μL2Q 甚至能达到高于全精度模型的推理精度.随着给定位宽的增加,量化模型的
                 精度也随之提升.Lenet5、CifarNet 和 VGG-like 的分类精度分别在 4 比特、8 比特和 8 比特时达到 99.51%,81.66%
                 和 93.53%,其中,LeNet 和 VGG-like 的结果甚至比全精度模型还提升了 0.11%和 0.04%.在 ImageNet 数据集
                 上,μL2Q 能使 AlexNet、ResNet18 和 MobileNetV2 在 8 比特量化位宽下达到 61.4%,70.23%和 72.23%(Top1)的
                 分类精度,与全精度模型的结果相比分别提升了 1.39%,0.63%和 0.93%.以上的实验结果说明,利用μL2Q 进行权
                 值量化有助于提升模型的泛化能力,即有助于提升模型的分类精度.
   113   114   115   116   117   118   119   120   121   122   123