Page 110 - 《软件学报》2021年第8期
        P. 110
     2392                                   Journal of Software  软件学报 Vol.32, No.8,  August 2021
                 4 (State Key Laboratory of Computer Architecture (Institute of Computing Technology, Chinese Academy of Sciences), Beijing 100190,
                  China)
                 Abstract:    Deep neural network (DNN) quantization is an efficient model compression method, in which parameters and intermediate
                 results are expressed  by  low  bit  width. The  bit width of  data will  directly affect  the memory  footprint, computing  power and energy
                 consumption. Previous researches on model quantization lack effective quantitative analysis, which leads to unpredictable quantization
                 loss of these  methods.  This study proposes  an ultra-low loss quantization (μL2Q) method  for DNN compression, which reveals the
                 internal relationship between quantization bit width and quantization loss, effectively guiding the selection of quantization bit width and
                 reducing quantization loss. First, the original data is mapped to the data with standard normal distribution and then the optimal parameter
                 configuration is sought to reduce the quantization loss under the target bit width. Finally, μL2Q has been encapsulated and integrated into
                 two popular deep  learning training frameworks, including Caffe  and  Keras, to support  the design  and training of  end-to-end  model
                 compression. The experimental results show that compared with the state-of-the-art three clusters of quantization solutions, μL2Q can still
                 guarantee the accuracy and deliver 1.94%, 3.73%, and 8.24% of accuracy improvements under the typical neural networks with the same
                 quantization bit width, respectively. In addition, it is also verified that μL2Q can be competent for more complex computer vision tasks
                 through salient object detection experiments.
                 Key words:   neural  network compression; neural network  quantization; weight distribution;  uniform quantization; extremum of
                          quantizationloss
                    随着深度神经网络(DNN)在多个研究领域取得实质性突破,边缘智能场景下 DNN 模型的应用和部署,吸引
                 了研究人员的广泛关注.为了追求更高的推理精度,近年来,DNN 模型的计算规模变得愈加庞大、网络结构愈加
                                                                                     [3]
                 复杂且不规则     [12] 、参数量巨大  [3−13] ,其运行时需要强大的计算能力支持并且极其耗能 .然而,边缘智能设备的
                 计算资源与存储资源有限,并且对能耗及延迟具有严格的约束.因此,在资源受限的边缘设备上部署庞大而复杂
                 的 DNN 模型极具挑战      [11] .将 DNN 模型进行压缩,可以有效减少模型的复杂度,使 DNN 模型得以应用于边缘智
                 能计算场景.
                    DNN 模型压缩的主要目的是:在确保 DNN 模型推理精度的前提下,消除冗余的模型参数,减少中间结果并
                 降低网络结构的复杂度,从而得到满足精度要求的精简模型.DNN 量化是 DNN 模型压缩的一种重要方法                                 [14] ,它
                 利用低位宽的参数来表示原始的全精度模型,显著降低 DNN 模型的计算复杂度和内存占用,使得 DNN 模型能
                 够直接在资源受限的边缘设备上进行部署.当原始的模型被量化到极低的位宽时,模型压缩效果尤为明显                                    [15−18] .
                 例如,二值神经网络 BNN      [15] 和三值神经网络 TWNs    [16] 可分别将 32 位全精度模型的尺寸压缩 32 倍和 16 倍.
                    但是,现有的 DNN 量化方法存在诸多问题,通常依赖于经验猜测和实验尝试                         [15−17,19] ,缺乏有效的理论支撑.
                 具体表现如下:
                    •   第一,现有量化方法难以在数据位宽和模型精度之间进行有效权衡.通过极少量的比特位表示 DNN 模
                        型,将导致模型精度明显下降而失去应用价值.例如,利用二值量化或三值量化的 DNN 可以获得极高的
                        压缩比,但在实际应用中无法满足精度要求               [15−18,20] ;而保留较多数量的比特位    [19,21] ,虽然能够防止精度
                        显著下降,但量化后的 DNN 模型仍然过于庞大,难以直接部署                  [22,23] .
                    •   第二,启发式的参数选择需要大量的人工尝试,而现有的量化方法在将全精度模型数据转换成低位宽
                        数据之前,需要寻找恰当的参数来限制中间结果数据的表示范围.该步骤通常需要引入缩放参数                                  [18] ,而
                        现有的量化方法在确定缩放参数时,往往是启发式的                  [17,22] .
                    •   第三,对权值数据分布的拟合程度会直接影响量化后的模型精度,而现有量化方法通常会忽视权值数
                        据的分布规律.例如,Dorefa-Net    [17] 和 FP [19] 等工作由于量化后的权值不拟合原始的权值分布,从而导致
                        精度显著下降.尽管 DNN 模型中各层数据的分布规律不同,但均可通过数学变换而近似满足标准正态
                        分布.本文例举了 4 种典型的 DNN 模型的各层的权值数据,如图 1 所示,其数据皆近似服从标准正态分
                        布.量化方法的设计应该充分利用权值数据分布规律,以有效提高 DNN 模型量化后的精度.
                    为了解决上述问题,本文提出一种超低损失的模型量化方法(ultra-low loss quantization,简称μL2Q).该方法
                 在模型量化时充分考虑了原始权值数据的分布规律并进行了定量分析,并在确定缩放参数时有效地减少了人





