Page 19 - 《软件学报》2020年第9期
P. 19
2640 Journal of Software 软件学报 Vol.31, No.9, September 2020
多分支架构搜索空间可以更好地探索神经网络中层之间不同的连接方式,丰富了神经网络结构的类型,增
加神经网络模型的容量,提高神经网络的学习能力,提升解决特定任务的性能.
3.1.2 局部搜索空间
虽然链式和多分支架构搜索空间可以以更灵活的方式构建不同类型的神经网络结构,但是面临着搜索空
间大、参数规模大,需要大量的计算资源实现神经网络的搜索.因此往往收敛至次优或局部极小的神经网络架
构,不能有效地解决特定任务.为了解决上述问题,学者们受到人工设计的深度神经网络模型中存在大量重复的
块结构的启发,提出了重复堆叠块结构,而不是通过搜索单一层构建神经网络.这种块结构通常由更小的块构
成,通过堆叠块构建更大的神经网络架构.这种设计不仅可以保证神经网络架构的性能,而且通过简单修改神经
网络的参数,可以很容易地将搜索到的神经网络推广到其他的数据集和任务中.
通过引入针对特定问题的先验知识,设计具有不同特定架构的块,构成基于块的搜索空间,而不仅仅包括不
[6]
同类型的单一层.近些年来,学者们成功设计了一些基于块的搜索空间 [54,64−69] .NasNet 模型 是第 1 个提出了基
于块的搜索空间,该方法设计了两种类型的块结构,分别是正常块(normal cell)和降维块(reduction cell),如图 16
所示.正常块内的卷积步长设置为 1,可以保持输入特征的维度不变;降维块内的卷积步长设置为 2,降低输入特
征的空间维度.
输入
输入
输出
输出
Fig.16 Different types of block structures
图 16 不同类型的块结构
[3]
同时,Cai 等人 [67] 将如 DenseNet 等经典手工设计的深度神经网络模型直接应用在基于块的搜索空间中;
Dong 等人 [70] 通过设置搜索没有分支结构并交替使用具有固定结构的块,提出了满足模型参数少、推理时间快
的快速搜索模型,如图 17 所示.原则上,不同的块之间可以采用任意的连接方式,多分支架构搜索空间内的所有
连接方式均可以使用.理想情况下,块结构和整体的神经网络架构应进行联合优化,而不是单独优化某一部分.
avg pool
avg pool
*
*
x conv cell (n 1) (stride-2) cell (n 2) (stride-2) cell (n 3) global y(x)
*
pool
Fig.17 Densely connected mobile search space
图 17 密集连接的移动搜索空间
3.1.3 全局搜索空间和局部搜索空间的比较
搜索空间的类型和大小决定了网络架构搜索的难度.需要注意的是:不管采用哪种类型的搜索空间,都具有
不连续性和相对高维的问题.与链式和多分支等的全局搜索空间相比,基于块局部搜索空间具有以下 3 个优点.
[6]
(1) 显著降低了搜索空间的规模,Zoph 等人提出的 NasNet 方法的效率比 NASRL 方法 [62] 快了 7 倍;(2) 通过堆
叠块结构创建神经网络架构已经被证明是一个非常有效的设计原则,例如在递归神经网络中重复 LSTM 模块
[2]
或 ResNet 网络中堆叠残差结构;(3) 通过简单地改变块结构中卷积核的数量和大小,采用块结构创建的神经