Page 420 - 《软件学报》2025年第12期
P. 420
软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn
2025,36(12):5801−5820 [doi: 10.13328/j.cnki.jos.007372] [CSTR: 32375.14.jos.007372] http://www.jos.org.cn
©中国科学院软件研究所版权所有. Tel: +86-10-62562563
*
ReproLink: 面向可复现性的科研数据管理系统
黄小龙 1,2 , 杨婧如 2,3 , 柳 熠 2,3 , 马 郓 2,4 , 景 翔 2,5 , 黄 罡 1,2
1
(北京大学 计算机学院, 北京 100871)
2
(数据空间技术与系统全国重点实验室, 北京 100091)
3
(北京大数据先进技术研究院, 北京 100195)
4
(北京大学 人工智能研究院, 北京 100871)
5
(北京大学 软件与微电子学院, 北京 102600)
通信作者: 杨婧如, E-mail: okiyang@pku.edu.cn; 柳熠, E-mail: liuyi14@pku.edu.cn
摘 要: 科研成果的可复现性是科学研究可靠性的基本保证, 更是科学技术进步的基石. 然而, 当前学术界面临着
严峻的可复现性危机, 大量在顶级期刊和会议上公开发表的科研成果无法复现. 在数据科学领域, 成果的可复现性
面临着科研数据多源异构、计算流程复杂、计算环境复杂等挑战. 针对这些问题, 提出面向可复现性的科研数据
管理系统 ReproLink. ReproLink 提出对科研数据的统一建模, 将科研数据抽象为包含标识、属性集、数据实体三
要素的科研数据对象; 通过对于复现流程的细粒度建模, ReproLink 建立一种对多步骤复杂复现流程的精确描述方
法. 通过代码和运行环境的一体化建模, ReproLink 消除不同环境中代码执行行为的不确定性给成果复现带来的影
响. 对 ReproLink 的性能测试和实例分析表明, ReproLink 在百万级的数据规模下具有较好的性能表现, 在论文复
现、复现相关数据的溯源等现实场景中具有实用价值. ReproLink 系统技术架构已集成到国内唯一专门面向科研
院所的一体化综合管理与服务平台-科南软件, 支持国内数百家科研机构的成果复现需求.
关键词: 科研数据管理; 可复现性; 数字对象架构; 数据语用; 数据共享
中图法分类号: TP311
中文引用格式: 黄小龙, 杨婧如, 柳熠, 马郓, 景翔, 黄罡. ReproLink: 面向可复现性的科研数据管理系统. 软件学报, 2025, 36(12):
5801–5820. http://www.jos.org.cn/1000-9825/7372.htm
英文引用格式: Huang XL, Yang JR, Liu Y, Ma Y, Jing X, Huang G. ReproLink: Reproducibility-oriented Research Data Management
System. Ruan Jian Xue Bao/Journal of Software, 2025, 36(12): 5801–5820 (in Chinese). http://www.jos.org.cn/1000-9825/7372.htm
ReproLink: Reproducibility-oriented Research Data Management System
1,2 2,3 2,3 2,4 2,5 1,2
HUANG Xiao-Long , YANG Jing-Ru , LIU Yi , MA Yun , JING Xiang , HUANG Gang
1
(School of Computer Science, Peking University, Beijing 100871, China)
2
(National Key Laboratory of Data Space Technology and System, Beijing 100091, China)
3
(Advanced Institute of Big Data Technology, Beijing 100195, China)
4
(Institute for Artificial Intelligence, Peking University, Beijing 100871, China)
5
(School of Software and Microelectronics, Peking University, Beijing 102600, China)
Abstract: The reproducibility of scientific research results is a fundamental guarantee for the reliability of scientific research and the
cornerstone of scientific and technological advancement. However, the research community is currently facing a serious reproducibility
crisis, with many research results published in top journals and conferences being irreproducible. In the field of data science, the
reproducibility of research results faces challenges such as heterogeneous research data from multiple sources, complex computational
* 基金项目: 北京市科技新星计划 (Z211100002121159); 数据空间技术与系统全国重点实验室资助项目
收稿时间: 2024-08-20; 修改时间: 2024-10-10; 采用时间: 2024-12-01; jos 在线出版时间: 2025-05-22
CNKI 网络首发时间: 2025-05-23

