Page 118 - 《软件学报》2024年第4期
P. 118

1696                                                       软件学报  2024 年第 35 卷第 4 期

         时段(session).  对每个 session,  可以细分为 6 组实验(run),  每个 run 包含 48 次测试(trial).  数据集 2b 采集了 2
         类运动想象任务(左手和右手运动).  对 9 位被试采集了 5 个 session 的数据,  其中:  前 2 个 session 为无视觉反
         馈的运动想象,  每个 session 分为 6 个 run,  每个 run 包含 20 次 trial;  后 2 个 session 为包含视觉反馈的运动想
         象,  每个 session 分为 4 个 run,  每个 run 包含 40 次 trial.
             SEED 数据集(https://bcmi.sjtu.edu.cn/~seed/index.html)是由上海交通大学发布的关于情绪识别的数据库,
         该数据集采集了 15 名被试观看基于情绪诱发的电影视频片段时的脑电信号.  考虑到文化背景等因素,  实验选
         取的视频均为中文电影.  视频涉及 3 种情绪——正性、中性、负性效价.  每名被试都进行了 3 个 session 的实
         验,  在每个 session 随机观看 15 个长度为 4 分钟的电影片段,  且每个 session 观看的视频内容相同,  相邻时段
         间隔两周. SEED 数据集的采集设置方式为验证模型在时间上的稳定性和重测性提供了数据基础.
             DEAP 数据集(http://www.eecs.qmul.ac.uk/mmv/datasets/deap/)主要可用于情绪识别,  该数据集采集了 32 名
         被试基于音乐视频材料诱发刺激下产生的多模态的生理信号.  每名被试观看 40 段不同种类的音乐视频,  每个
         视频时长为 1 分钟.  视频的种类分为 4 类,  分别是高效价高唤醒度、高效价低唤醒度、低效价高唤醒度、低
         效价低唤醒度.
             •   fMRI 常用数据集
             HCP 数据集(http://www.humanconnectomeproject.org/)是由美国国立卫生研究院(National  Institutes of
         Health, NIH)参与采集的人脑连接组研究计划,  该数据库目前已采集了约 1 200 人的多模态数据,  包括 sMRI、
         fMRI、MEG、基因数据以及其他行为量表信息.  其中:  有约 1 100 名被试采集了 sMRI 和 fMRI 数据,  并参与
         了两个 session 的实验. fMRI 数据包含静息态和任务态,  任务态实验包括运动、工作记忆、赌博、语言、社交、
         情感和关系. HCP 数据库是目前基于 NAS 算法对健康人群 fMRI 脑数据进行分析时最为常用的数据集.
             ABIDE 数据集(http://fcon_1000.projects.nitrc.org/indi/abide/)由 24 个国际脑成像实验室站点合作收集形成,
         旨在研究 ASD 疾病的大脑机制. ABIDE 计划包括 ABIDE I 和 ABIDE II 两个数据集,  收集了静息态 fMRI、sMRI
         和行为量表信息.  其中: ABIDE I 涉及 17 个国际站点,  包含 539 个 ASD 患者和 573 个健康被试的数据; ABIDE
         II 涉及 19 个国际站点,  包含 521 个 ASD 患者和 593 个健康被试的数据.
             •   sMRI 常用数据集
             MSD 数据集(https://registry.opendata.aws/msd/)是迄今为止最大、最全面的医学图像分割数据集,  也是基
         于 NAS 算法对 sMRI 数据分析领域最常用的数据集. MSD 包含许多不同来源的标记数据,  存在数据异构、标
         记差异和注释程序的差异等问题.  该数据集共包含 2 633 张三维医学图像,这些图像数据涉及人类的 10 个身体
         器官或部位,  包括大脑、心脏、肝脏、海马体、前列腺、肺、胰腺、肝血管、脾脏和结肠.  其中,  脑数据由
         750 张多参数 sMRI 图像组成,  数据采集自被诊断患有胶质母细胞瘤或低级别胶质瘤的患者.
             BraTS  chanllenge 数据集(https://www.synapse.org/)是国际医学图像计算和计算机辅助干预协会(MICCAI)
         举办的医学图像处理领域的脑肿瘤分割挑战赛提供的数据集.  每个被试采集 4 个序列的 sMRI 图像:  T1 MRI,
         T1ce MRI, T2 MRI 和 Flair.  该数据集已划分训练集、验证集和测试集.  在基于 NAS 的脑数据分析领域使用的
         数据集包括 BraTS 2018, BraTS 2019 和 BraTS 2021,  具体见表 4.
                         表 4  NAS 算法在脑数据分析中常用的 BraTS 历年数据集的被试数量
                          数据集      总被试数量    训练集被试数量       验证集被试数量      测试集被试数量
                         BraTS 2018   542        285          66           191
                         BraTS 2019   626        335          125          166
                         BraTS 2021   2 040     1 251         219          570
             •   CT 常用数据集
             MICCAI 2015 数据集(https://www.imagenglab.com/newsite/pddca/)是 2015 年 MICCAI 会议提供的头颈部
         CT 图像数据集,  该数据集提供了 48 名从北美招募的头颈癌患者数据,  其中,  训练集包含 33 名被试,  测试集
         包含 15 名被试.  该数据集对 CT 图像的头颈部区域的 9 个结构进行了标记:  脑干、下颌骨、视交叉、视神经(左、
         右)、腮腺(左、右)和下颌下腺(左、右).
   113   114   115   116   117   118   119   120   121   122   123