Page 420 - 《软件学报》2025年第12期
P. 420

软件学报 ISSN 1000-9825, CODEN RUXUEW                                        E-mail: jos@iscas.ac.cn
                 2025,36(12):5801−5820 [doi: 10.13328/j.cnki.jos.007372] [CSTR: 32375.14.jos.007372]  http://www.jos.org.cn
                 ©中国科学院软件研究所版权所有.                                                          Tel: +86-10-62562563



                                                                          *
                 ReproLink: 面向可复现性的科研数据管理系统

                 黄小龙  1,2 ,    杨婧如  2,3 ,    柳    熠  2,3 ,    马    郓  2,4 ,    景    翔  2,5 ,    黄    罡  1,2


                 1
                  (北京大学 计算机学院, 北京 100871)
                 2
                  (数据空间技术与系统全国重点实验室, 北京 100091)
                 3
                  (北京大数据先进技术研究院, 北京 100195)
                 4
                  (北京大学 人工智能研究院, 北京 100871)
                 5
                  (北京大学 软件与微电子学院, 北京 102600)
                 通信作者: 杨婧如, E-mail: okiyang@pku.edu.cn; 柳熠, E-mail: liuyi14@pku.edu.cn
                 摘 要: 科研成果的可复现性是科学研究可靠性的基本保证, 更是科学技术进步的基石. 然而, 当前学术界面临着
                 严峻的可复现性危机, 大量在顶级期刊和会议上公开发表的科研成果无法复现. 在数据科学领域, 成果的可复现性
                 面临着科研数据多源异构、计算流程复杂、计算环境复杂等挑战. 针对这些问题, 提出面向可复现性的科研数据
                 管理系统   ReproLink. ReproLink  提出对科研数据的统一建模, 将科研数据抽象为包含标识、属性集、数据实体三
                 要素的科研数据对象; 通过对于复现流程的细粒度建模, ReproLink                建立一种对多步骤复杂复现流程的精确描述方
                 法. 通过代码和运行环境的一体化建模, ReproLink          消除不同环境中代码执行行为的不确定性给成果复现带来的影
                 响. 对  ReproLink  的性能测试和实例分析表明, ReproLink     在百万级的数据规模下具有较好的性能表现, 在论文复
                 现、复现相关数据的溯源等现实场景中具有实用价值. ReproLink                 系统技术架构已集成到国内唯一专门面向科研
                 院所的一体化综合管理与服务平台-科南软件, 支持国内数百家科研机构的成果复现需求.
                 关键词: 科研数据管理; 可复现性; 数字对象架构; 数据语用; 数据共享
                 中图法分类号: TP311

                 中文引用格式: 黄小龙, 杨婧如, 柳熠, 马郓, 景翔, 黄罡. ReproLink: 面向可复现性的科研数据管理系统. 软件学报, 2025, 36(12):
                 5801–5820. http://www.jos.org.cn/1000-9825/7372.htm
                 英文引用格式: Huang XL, Yang JR, Liu Y, Ma Y, Jing X, Huang G. ReproLink: Reproducibility-oriented Research Data Management
                 System. Ruan Jian Xue Bao/Journal of Software, 2025, 36(12): 5801–5820 (in Chinese). http://www.jos.org.cn/1000-9825/7372.htm

                 ReproLink: Reproducibility-oriented Research Data Management System
                                1,2          2,3     2,3      2,4        2,5          1,2
                 HUANG Xiao-Long , YANG Jing-Ru , LIU Yi , MA Yun , JING Xiang , HUANG Gang
                 1
                 (School of Computer Science, Peking University, Beijing 100871, China)
                 2
                 (National Key Laboratory of Data Space Technology and System, Beijing 100091, China)
                 3
                 (Advanced Institute of Big Data Technology, Beijing 100195, China)
                 4
                 (Institute for Artificial Intelligence, Peking University, Beijing 100871, China)
                 5
                 (School of Software and Microelectronics, Peking University, Beijing 102600, China)
                 Abstract:  The  reproducibility  of  scientific  research  results  is  a  fundamental  guarantee  for  the  reliability  of  scientific  research  and  the
                 cornerstone  of  scientific  and  technological  advancement.  However,  the  research  community  is  currently  facing  a  serious  reproducibility
                 crisis,  with  many  research  results  published  in  top  journals  and  conferences  being  irreproducible.  In  the  field  of  data  science,  the
                 reproducibility  of  research  results  faces  challenges  such  as  heterogeneous  research  data  from  multiple  sources,  complex  computational


                 *    基金项目: 北京市科技新星计划  (Z211100002121159); 数据空间技术与系统全国重点实验室资助项目
                  收稿时间: 2024-08-20; 修改时间: 2024-10-10; 采用时间: 2024-12-01; jos 在线出版时间: 2025-05-22
                  CNKI 网络首发时间: 2025-05-23
   415   416   417   418   419   420   421   422   423   424   425