Page 435 - 《软件学报》2025年第12期

P. 435

5816 软件学报 2025 年第 36 卷第 12 期

③在线执行复现

①检索论文

②链接论文对象、代码对象、
输入数据集对象, 创建复现

图 8 ReproLink 系统界面

查找科研数据对象和关系对象的过程按以下步骤进行.
1) 使用关键字搜索功能, 在系统中找到需要复现的论文“Translating embeddings for modeling multi-relational
data” [35] , 设其为 O .
P
2) 在系统中查找代码对象 TransE. 本文使用的复现代码在论文作者开源的代码的基础上进行微调, 设其为 O .
C
P
3) 使用基于路径的多跳查询查找论文对象 O 引用的论文中提出的所有数据集对象, 并在其中人工查找和
O 经过任意跳类型为
P
论文内实验相符的数据集. 在查询时, 发送给对象检索引擎的搜索请求为查找论文对象
(cite, paper, paper) 的关系, 接着经过恰好一跳类型为 (propose,paper,dataset) 关系的路径所能达到的所有终点数
据集. 查询得到 FB15k, WN18 等数据集. 本节的模拟测试中使用 FB15k 数据集作为输入数据, 设其为 O .
D
R
O .
4) 创建复现单元
R C
5) 创建关系对象, 起点为 O , 终点为 O , 类型为 (use,reproduction,code).
D R
6) 创建关系对象, 起点为 O , 终点为 O , 类型为 (input,dataset,reproduction).
在创建复现单元和关系对象后, ReproLink 即可实现论文的一键在线复现. 后文图 9 展示了此次模拟论文复现
完成后的系统界面截图.
4.4 案例 2: 医学领域论文复现
除了计算机领域的研究之外, ReproLink 也可用于支持其他领域的科学研究中计算过程的复现. 本节对疗影像
分割的经典论文 UNet++ [36] 进行了复现, 此论文提出了医疗影像分割模型 UNet++, 并在 6 个医疗影像分割数据集
上对 UNet++进行测试. 该论文使用的数据集分别来自 6 个不同的数据提供者, 并且论文中并未直接提供访问数据
集的链接, 而只引用了部分提出数据集的论文. 研究者在复现论文时必须在互联网上分别寻找这些数据集, 并经过
各不相同的步骤在各自的提供者网站上获取实验数据集. 在论文复现的过程中, 获取多源异构数据的过程消耗了
研究人员大量的时间, 极大地降低了论文复现的效率.
在 ReproLink 中, 数据集对象保存在数据所有者各自的数据仓库中. 这些仓库可以使用不同的协议对外提供
服务, ReproLink 支持多种不同的底层协议, 基于这些异构的仓库向上层用户提供了对于科研数据对象的统一访问
接口, 从而缓解了数据的多源异构性对复现的影响. 本节模拟了在 ReproLink 上使用 UNet++开源代码 [37] 复现论文
中在 BRATS 数据集 [38] 上的实验. 具体步骤如下.

430 431 432 433 434 435 436 437 438 439 440