Page 447 - 《软件学报》2024年第6期
P. 447
朱光辉 等: 基于自引导进化策略的高效自动化数据增强算法 3023
(1) 图像数据集
实验所用的图像数据集主要是 CIFAR-10 [12] 、CIFAR-100 [12] 和 SVHN [20] 数据集. 其中 CIFAR-10 数据集为 10
类 32×32 的彩色图像, 一共包含 60 000 张图像, 每一类包含 6 000 张图像, 其中 50 000 张图像作为训练集, 10 000
张图像作为测试集. SVHN 数据集是来自 Google 街景图像中的门牌号, 一共包含 10 个类别, 共包含 73 257 个训练
集, 26 032 个测试集.
(2) 语音数据集
实验所用的语音数据集主要是 ESC-50 [21] 和 GTZAN [22] . 其中 ESC-50 数据集包含了 2 000 个 5 s 环境语音片
段, 共分为 50 个类别, 每个类别有 40 个样本, 训练集和测试集按照 4:1 的比例进行划分, 即训练样本 1 600 个, 测
试样本 400 个. GTZAN 数据集包含了 1 000 个音频文件, 共分为 10 个流派 (类别), 每个音频文件长 30 s, 训练集
和测试集按照 3:1 的比例进行划分, 即训练样本 750 个, 测试样本 250 个.
(3) 文本数据集
实验所用的文本数据集主要是 AGNews [23] 和 DBpedia [24] 数据集. 其中 AGNews 数据集是学术新闻搜索引擎
ComeToMyHead 从 2 000 多个新闻源收集的新闻文章的集合, 该数据集共有 4 个类别, 包括 120 000 个训练样本
设定值
和 7 600 个测试样本. DBpedia 数据集是大规模的多语言知识库, 根据 Wikipedia 中最常用的信息框创建的.
DBpedia 最受欢迎的版本包含 560 000 个训练样本和 70 000 个测试样本, 每个样本都带有 14 类标签.
表 3 介绍了图像、语音和文本类型数据的基本统计信息, 包括训练样本数目、测试样本数目和标签数目.
表 2 实验环境硬件配置信息 表 3 图像、语音和文本类型数据的统计信息
属性 配置描述(单个工作节点) 类别 数据集 训练样本数目 测试样本数目 标签数目
CPU 20×Intel(R) Xeon(R) Gold 6248 CPU @ 2.50 GHz CIFAR-10 50 000 10 000 10
GPU 4×Tesla V100 SXM2 32 GB 图像 CIFAR-100 50 000 10 000 100
内存 240 GB (15×16 GB) SVHN 73 257 26 032 10
硬盘 1 TB HDD 语音 ESC-50 1 600 400 50
网络 1 Gb/s Ethernet GTZAN 750 250 10
AGNews 120 000 7 600 4
文本
DBpedia 560 000 70 000 14
4.2 超参数设置
根据算法 1 的设计, 本文对 SGES AA 算法中所需要的超参数进行了设置, 具体设置如表 4 所示.
(1) 图像分类实验超参数设置
针对图像分类任务, CIFAR-10、CIFAR-100 和 SVHN 需要在不同的模型上进行训练, 模型的超参数设置如
表 5–表 7 所示. 其中, CIFAR-100 数据集没有单独搜索, 因与 CIFAR-10 数据集比较相似, 故在 CIFAR-100 上的增
强策略可通过在 CIFAR-10 上搜索获取.
(2) 语音分类实验超参数设置
针对语音分类任务, ESC-50 和 GTZAN 需要在不同的模型上进行训练, 模型的超参数设置如表 8 所示.
表 4 SGES AA 算法超参数设置
参数项 参数项 设定值
更新步长 η 0.2 更新间隔T U 5
搜索方向数量N s 8 容器H的容量N H 5
平滑参数 v 0.05 工作节点数量m 8
迭代上限T 60 预热次数T w 16
精英数量b 6 队列Q的容量k 20