Page 153 - 《软件学报》2020年第12期
P. 153
李延超 等:自适应主动半监督学习方法 3819
们计划开发一个系统,集成众包学习、主动学习、半监督学习和可视化工具.
6 模型网络结构和参数
6.1 MNIST数据集上的网络结构
完全连接(fully connected)是一个全面连接的层,具有 n 个输出单位.卷积和完全连接层具有指数线性单位
−4
(exponential linear units,简称 ELU)激活函数和额外的 L2 权重正则化项,权值为 10 .最后完全连接的层,用于生
成样本表示.
6.2 CIFAR-10数据集上的网络结构
对于 CIFAR-10 数据集的网络结构,本文稍微修改表 2 的网络结构,见表 3.
Table 2 Active supervision architecture on MNIST dataset
表 2 MNIST 数据集上的网络结构和参数
网络层 超参数
输入 28×28 像素图像
卷积层 32 卷积核 3×3,步长为 1
卷积层 32 卷积核 3×3,步长为 1
池化层 最大池化 2×2
卷积层 64 卷积核 3×3,步长为 1
卷积层 64 卷积核 3×3,步长为 1
池化层 最大池化 2×2
卷积层 128 卷积核 3×3,步长为 1
卷积层 128 卷积核 3×3,步长为 1
池化层 最大池化 2×2
全连接 生成样本表示(embedding)
Table 3 Active supervision architecture on CIFAR-10 and
variations of MNIST datasets
表 3 CIFAR-10 数据集上的网络结构和参数
网络层 超参数
输入 32×32 像素图像
卷积层 32 卷积核 3×3,步长为 1
卷积层 64 卷积核 3×3,步长为 1
池化层 最大池化 3×3
卷积层 64 卷积核 3×3,步长为 1
卷积层 128 卷积核 3×3,步长为 1
池化层 最大池化 2×2
卷积层 128 卷积核 3×3,步长为 1
卷积层 256 卷积核 3×3,步长为 1
池化层 最大池化 2×2
全连接 生成样本表示(embedding)
6.3 Mean Teacher模型的网络结构
表 4 描述了 Mean Teacher 模型的卷积网络结构.平均批量标准化(mean-only batch normalization)、权重标
准化(weight normalization)用于卷积和 softmax 层.Leaky ReLu(α=0.1)作为每个卷积层的非线性激活函数.分类
损失定义为“学生”模型 softmax 输出和独热(one-hot)标签之间的交叉熵;一致性损失定义为“学生”模型和“教
师”模型 softmax 输出之间的均方误差.小批量的大小设置为 100.MeanTeacher 采用 Adam 优化器训练网络,学习
−8
率设置为 0.003,参数β 1 =0.9,β 2 =0.999,以及ε=10 .在 Mean Teacher 模型中,“教师”模型的参数在每次训练步骤之
后使用带有α=0.999 的 EMA(exponential moving average)更新.