Page 25 - 《软件学报》2020年第9期
P. 25
2646 Journal of Software 软件学报 Vol.31, No.9, September 2020
Table 3 Comparison of classification results and search time of different
search strategies on CIFAR-10 dataset
表 3 不同搜索策略在 CIFAR-10 数据集上的分类结果和搜索时间比较
Reference Error (%) Params (millions) GPU days
Baker et al. (2017) [58] 6.92 11.18 100
Zoph and Le (2017) [62] 3.65 37.4 22 400
Cai et al. (2018) [60] 4.23 23.4 10
Zoph et al. (2018) [6] 3.41 3.3 2 000
Zoph et al. (2018)+Cutout 2.65 3.3 2 000
Zhang et al. (2018) [71] 3.54 39.8 96
Cai et al. (2018) [67] 2.99 5.7 200
Cai et al. (2018)+Cutout 2.49 5.7 200
Real et al. (2017) [78] 5.40 5.4 2 600
Xie and Yuille (2017) [79] 5.39 N/A 17
Suganuma et al. (2017) [59] 5.98 1.7 14.9
Liu et al. (2018) [75] 3.75 15.7 300
Real et al. (2019) [54] 3.34 3.2 3 150
Elsken et al. (2018) [76] 5.2 19.7 1
Wistuba (2018)+Cutout [77] 3.57 5.8 0.5
Kandasamy et al. (2018) [80] 8.69 N/A 1.7
Luo et al. (2018) [81] 3.18 10.6 200
Pham et al. (2018) [65] 3.54 4.6 0.5
Pham et al. (2018)+Cutout 2.89 4.6 0.5
Bender et al. (2018) [82] 4.00 5.0 N/A
Brock et al. (2018) [83] 4.03 16.0 3
Zhang et al. (2019) [84] 4.30 5.1 0.4
Random (Luo et al. 2018) [81] 3.92 3.9 0.3
3.2.4 轻量级神经网络搜索
[7]
MnasNet 算法 提出了一种用于移动神经网络模型设计的自动神经结构搜索方法,其中,与以前方法的主
[7]
要区别是延迟感知多目标奖励和新的搜索空间.MnasNet 算法基于两个主要思想.
(1) 将搜索问题表示为一个多目标优化问题,同时考虑神经网络模型的准确性和推理延迟;
(2) 与以前使用 FLOPs 来近似推断延迟的工作 [62,68,85] 不同,直接通过在实际移动设备上执行模型来测量
实际的延迟.
[8]
[6]
该想法的灵感来源于搜索的失败往往是由一个不准确的代理导致的,例如,MobileNet 和 NASNet 有类
似的失败现象(575M vs 564M),但是他们的延迟明显不同(113ms 与 183ms);其次,观察到以前的自动化方法主要
是寻找一些类型的块,然后重复相同的块结构构建神经网络.这简化了搜索过程,但也排除了对计算效率很重要
的层多样性.为了解决这个问题,该方法提出了一种新的分解层次搜索空间,它允许层在架构上不同,但仍然在
灵活性和搜索空间大小之间取得适当的平衡.
本文设计了一种新的分解层次搜索空间,它将 CNN 模型分解为独特的块,然后分别搜索每个块的操作和连
接,从而允许在不同块中使用不同的层结构.图 25 表示了分解层次搜索空间,根据神经网络中每层的输入特征
分辨率和滤波器的大小,神经网络中的层被分组成许多预定义的架构,称为块.每个块包含数量可变的重复相同
的层,如果输入/输出的分辨率不同,但所有其他层都具有跨距 1,则只有第 1 层具有跨距 2.对于每个块,该方法搜
索单个层的操作和连接以及层数 n,然后同一层重复 n 次(例如,4-1 层到 4-N 4 层是相同的).不同块(如 2-1 层和 4-1
层)的层可以不同.
该方法使用强化学习方法为多目标搜索问题找到 Pareto 最优解.将搜索空间中的每个神经网络模型映射
到令牌列表,这些令牌是由参数为θ的代理生成的一串动作 a 1:t 决定的.目标是使预期的奖励最大化:
J = E [ ( )],R m
( pa 1: ; )θ
T
其中,由动作 a 1:t 采样得到的,R(m)是定义的多目标函数.