Page 436 - 《软件学报》2025年第12期
P. 436
黄小龙 等: ReproLink: 面向可复现性的科研数据管理系统 5817
图 9 论文复现完成后的系统界面
1) 使用关键字搜索功能, 找到需要复现的论文 UNet++: Redesigning skip connections to exploit multiscale
P
features in image segmentation [36] .设其为 O .
(cite, paper, paper) 的关系, 再经
2) 使用基于关系的多跳路径查询, 从此论文对象出发, 查询经过一跳类型为
D
过一跳类型为 (propose,paper,dataset) 的关系, 所能到达的所有终点数据集对象. 设其为 O .
3) 使用关键字搜索, 在系统中查找 UNet++代码对象. 设其为 O .
C
P
C
D
C
D
R
P
4) 以 O 为论文, O 为代码, O 为输入数据集, 创建复现单元 O . O 、 O 和 O 来自不同的数据仓库, 这些仓
库可以使用异构的底层存储, 并以不同的协议对外提供数据. 但在科研数据对象的统一建模框架下, ReproLink 以
复现单元为媒介, 基于科研数据对象的标识建立了它们之间的联系.
5) 在线执行复现单元. 在此过程中, ReproLink 使用对应的协议和数据存放的各个数据仓库通信, 在一次复现
单元的执行过程中汇聚来自不同主体的科研数据对象.
使用 ReproLink, 可以大幅减少科研人员在复现过程中获取数据的时间, 从而提升论文复现的效率.
4.5 案例 3: 数据溯源
在 ReproLink 的计算框架下, 科研人员可以在处理科研数据的同时实现对这些科研数据的数据溯源 (data
provenance). ReproLink 在复现单元执行的过程中自动记录了复现单元和输出数据集之间的关系. 根据这一关系对
象以及复现单元与输入数据之间的关系对象, 其他科研人员可以使用路径匹配搜索根据输出数据集查询其源数据
集以及数据集作者对源数据集进行的数据处理流程.
通过在线代码执行, ReproLink 使得数据集作者可以方便地根据已有的数据集创建新的数据集. 当数据集作者
希望在已有数据集上做出改动时, 他可以通过复现执行引擎在已有数据集上运行一份转换代码, 并在代码运行完

