Page 25 - 《软件学报》2020年第9期
P. 25

2646                                 Journal of Software  软件学报 Vol.31, No.9,  September 2020

                         Table 3    Comparison of classification results and search time of different
                                       search strategies on CIFAR-10 dataset
                         表 3   不同搜索策略在 CIFAR-10 数据集上的分类结果和搜索时间比较
                                Reference        Error (%)   Params (millions)   GPU days
                             Baker et al. (2017) [58]  6.92    11.18        100
                            Zoph and Le (2017) [62]  3.65      37.4        22 400
                             Cai et al. (2018) [60]  4.23      23.4         10
                             Zoph et al. (2018) [6]  3.41      3.3         2 000
                           Zoph et al. (2018)+Cutout   2.65    3.3         2 000
                             Zhang et al. (2018) [71]  3.54    39.8         96
                             Cai et al. (2018) [67]  2.99      5.7          200
                            Cai et al. (2018)+Cutout   2.49    5.7          200
                             Real et al. (2017) [78]  5.40     5.4         2 600
                            Xie and Yuille (2017) [79]  5.39   N/A          17
                           Suganuma et al. (2017) [59]  5.98   1.7          14.9
                             Liu et al. (2018) [75]  3.75      15.7         300
                             Real et al. (2019) [54]  3.34     3.2         3 150
                            Elsken et al. (2018) [76]  5.2     19.7          1
                           Wistuba (2018)+Cutout  [77]  3.57   5.8          0.5
                           Kandasamy et al. (2018) [80]  8.69  N/A          1.7
                             Luo et al. (2018) [81]  3.18      10.6         200
                             Pham et al. (2018)  [65]  3.54    4.6          0.5
                           Pham et al. (2018)+Cutout   2.89    4.6          0.5
                            Bender et al. (2018) [82]  4.00    5.0          N/A
                             Brock et al. (2018) [83]  4.03    16.0          3
                             Zhang et al. (2019) [84]  4.30    5.1          0.4
                           Random (Luo et al. 2018) [81]  3.92  3.9         0.3

         3.2.4    轻量级神经网络搜索
                        [7]
             MnasNet 算法 提出了一种用于移动神经网络模型设计的自动神经结构搜索方法,其中,与以前方法的主
                                                      [7]
         要区别是延迟感知多目标奖励和新的搜索空间.MnasNet 算法基于两个主要思想.
             (1)  将搜索问题表示为一个多目标优化问题,同时考虑神经网络模型的准确性和推理延迟;
             (2)  与以前使用 FLOPs 来近似推断延迟的工作            [62,68,85] 不同,直接通过在实际移动设备上执行模型来测量
                 实际的延迟.
                                                                                 [8]
                                                                                           [6]
             该想法的灵感来源于搜索的失败往往是由一个不准确的代理导致的,例如,MobileNet 和 NASNet 有类
         似的失败现象(575M vs 564M),但是他们的延迟明显不同(113ms 与 183ms);其次,观察到以前的自动化方法主要
         是寻找一些类型的块,然后重复相同的块结构构建神经网络.这简化了搜索过程,但也排除了对计算效率很重要
         的层多样性.为了解决这个问题,该方法提出了一种新的分解层次搜索空间,它允许层在架构上不同,但仍然在
         灵活性和搜索空间大小之间取得适当的平衡.
             本文设计了一种新的分解层次搜索空间,它将 CNN 模型分解为独特的块,然后分别搜索每个块的操作和连
         接,从而允许在不同块中使用不同的层结构.图 25 表示了分解层次搜索空间,根据神经网络中每层的输入特征
         分辨率和滤波器的大小,神经网络中的层被分组成许多预定义的架构,称为块.每个块包含数量可变的重复相同
         的层,如果输入/输出的分辨率不同,但所有其他层都具有跨距 1,则只有第 1 层具有跨距 2.对于每个块,该方法搜
         索单个层的操作和连接以及层数 n,然后同一层重复 n 次(例如,4-1 层到 4-N 4 层是相同的).不同块(如 2-1 层和 4-1
         层)的层可以不同.
             该方法使用强化学习方法为多目标搜索问题找到 Pareto 最优解.将搜索空间中的每个神经网络模型映射
         到令牌列表,这些令牌是由参数为θ的代理生成的一串动作 a 1:t 决定的.目标是使预期的奖励最大化:
                                              J =  E  [ ( )],R m
                                                   ( pa 1: ; )θ
                                                    T
         其中,由动作 a 1:t 采样得到的,R(m)是定义的多目标函数.
   20   21   22   23   24   25   26   27   28   29   30