Page 153 - 《软件学报》2020年第12期
P. 153

李延超  等:自适应主动半监督学习方法                                                              3819


         们计划开发一个系统,集成众包学习、主动学习、半监督学习和可视化工具.

         6    模型网络结构和参数

         6.1   MNIST数据集上的网络结构
             完全连接(fully connected)是一个全面连接的层,具有 n 个输出单位.卷积和完全连接层具有指数线性单位
                                                                          −4
         (exponential linear units,简称 ELU)激活函数和额外的 L2 权重正则化项,权值为 10 .最后完全连接的层,用于生
         成样本表示.
         6.2   CIFAR-10数据集上的网络结构
             对于 CIFAR-10 数据集的网络结构,本文稍微修改表 2 的网络结构,见表 3.

                              Table 2    Active supervision architecture on MNIST dataset
                                    表 2   MNIST 数据集上的网络结构和参数
                                      网络层                       超参数
                                       输入                    28×28 像素图像
                                      卷积层                 32 卷积核 3×3,步长为 1
                                      卷积层                 32 卷积核 3×3,步长为 1
                                      池化层                    最大池化 2×2
                                      卷积层                 64 卷积核 3×3,步长为 1
                                      卷积层                 64 卷积核 3×3,步长为 1
                                      池化层                    最大池化 2×2
                                      卷积层                 128 卷积核 3×3,步长为 1
                                      卷积层                 128 卷积核 3×3,步长为 1
                                      池化层                    最大池化 2×2
                                      全连接                生成样本表示(embedding)
                              Table 3    Active supervision architecture on CIFAR-10 and
                                          variations of MNIST datasets
                                   表 3   CIFAR-10 数据集上的网络结构和参数
                                      网络层                       超参数
                                       输入                    32×32 像素图像
                                      卷积层                 32 卷积核 3×3,步长为 1
                                      卷积层                 64 卷积核 3×3,步长为 1
                                      池化层                    最大池化 3×3
                                      卷积层                 64 卷积核 3×3,步长为 1
                                      卷积层                 128 卷积核 3×3,步长为 1
                                      池化层                    最大池化 2×2
                                      卷积层                 128 卷积核 3×3,步长为 1
                                      卷积层                 256 卷积核 3×3,步长为 1
                                      池化层                    最大池化 2×2
                                      全连接                生成样本表示(embedding)

         6.3   Mean Teacher模型的网络结构
             表 4 描述了 Mean Teacher 模型的卷积网络结构.平均批量标准化(mean-only batch normalization)、权重标
         准化(weight normalization)用于卷积和 softmax 层.Leaky ReLu(α=0.1)作为每个卷积层的非线性激活函数.分类
         损失定义为“学生”模型 softmax 输出和独热(one-hot)标签之间的交叉熵;一致性损失定义为“学生”模型和“教
         师”模型 softmax 输出之间的均方误差.小批量的大小设置为 100.MeanTeacher 采用 Adam 优化器训练网络,学习
                                              −8
         率设置为 0.003,参数β 1 =0.9,β 2 =0.999,以及ε=10 .在 Mean Teacher 模型中,“教师”模型的参数在每次训练步骤之
         后使用带有α=0.999 的 EMA(exponential moving average)更新.
   148   149   150   151   152   153   154   155   156   157   158