Page 421 - 《软件学报》2025年第12期

P. 421

5802 软件学报 2025 年第 36 卷第 12 期

processes, and intricate computational environments. To address these issues, this study proposes ReproLink, a reproducibility-oriented
research data management system. ReproLink constructs a unified model of research data, abstracting it into research data objects that
consist of three elements: identifier, attribute set, and data entity. Through fine-grained modeling of the reproduction process, ReproLink
establishes a precise method for describing multi-step, complex reproduction processes. By integrating code and operating environment
modeling, ReproLink eliminates the uncertainties caused by different environments affecting code execution. Performance tests and case
studies show that ReproLink performs well with data scales up to one million records, demonstrating practical value in real-world
scenarios such as paper reproduction and data provenance tracking. The technical architecture of ReproLink has been integrated into
Conow Software, the only integrated comprehensive management and service platform in China specifically designed for scientific research
institutes, supporting the reproducibility needs of hundreds of such institutes across the country.
Key words: scientific data management; reproducibility; digital object architecture (DOA); data provenance; data sharing
科研成果的可复现性 (reproducibility) 是科学研究的基石, 它不仅是研究结论可验证的基本保证, 也是研究人
员在现有工作基础上推进新研究的基本要求 [1−3] . 然而, 许多科研领域当前存在研究成果的可复现性较差的问题,
严重影响了科学研究的可靠性, 这一现象被称为可复现性危机 (reproducibility crisis) [4−7] .
随着大数据时代的到来, 数据科学成为越来越重要的一种研究范式 [8,9] . 在这一趋势下, 包括医学、社会科学、
地球科学在内的各个领域的多种学科都迎来了研究范式的重要转变 [9−12] . 在数据科学的语境下, 可复现性一般指
计算可复现性 (computational reproducibility), 也就是“在相同的分析条件下, 使用相同输入数据、相同计算方法,
得到与原论文一致的计算结果” . 和传统研究的复现相比, 对于数据科学研究的复现具有独特的意义: 在复现的
[1]
基础上, 研究人员可以在新的场景下诱发数据集、代码等发挥新的价值. 例如百度人工智能团队在复现 BERT [13]
的基础上通过新增中文数据集并且修改模型掩码模块使其适配中文, 最终形成了百度的文心一言大语言模型 [14] .
文心一言复用了 BERT 的大部分数据集、模型及代码, 在这一过程中, 科研人员从现有的数据集、代码中挖掘出
了新的价值, 极大促进了 BERT 所使用的 English Wikipedia 和 BookCorpus 等数据集以及 BERT 源代码的价值
释放.
当前, 数据科学研究的可复现性面临着诸多挑战. 首先, 数据科学研究中使用的数据是多源异构的, 这使得研
究者获取复现研究成果所需科研数据的过程更加复杂. 大量科研数据分散式地存储在不同平台中, 这些平台之间
在数据访问协议和数据格式上存在异构性, 缺乏对科研数据资源的统一建模. 这阻碍了对科研数据的自动化处理,
增加了复现过程中获取数据的难度. 其次, 数据科学研究的复现流程是复杂的. 对一篇论文的复现往往需要经过多
阶段的数据处理, 其使用的数据集和代码之间具有复杂的逻辑关系. 在大部分的数据科学研究中, 研究者对于数据
的计算流程以自然语言的形式分散在论文或论文代码的文档中, 这种记录方式无法精确刻画对数据的处理过程,
复现者理解的细微偏差也可能导致最终得出和原作者不同的结果. 最后, 数据科学研究的代码执行环境是复杂的,
其中往往存在大量的第三方依赖. 要复现某项成果, 必须先复现其执行环境. 然而, 现有的科研代码共享形式无法
较好地支持对执行环境的复现. 例如一项对 Harvard Dataverse 上开源的 R 语言科研代码的研究显示, 38% 的代码
由于执行环境不适配而无法执行 [15] . 总而言之, 数据科学研究的复现性因数据的多源异构性、复现流程的复杂性
以及执行环境复杂性而面临严峻挑战.
针对这些问题, 本文提出了一个面向可复现性的科研数据管理系统 ReproLink. ReproLink 对论文、代码、数
据集这 3 类科研数据建立了统一模型, 基于数据语用理论 (data pragmatics) [16,17] 提出了复现单元的概念. 在此基础
上, ReproLink 实现了对于存储在分散式数据仓库中的科研数据的统一管理, 从而缓解了数据的多源异构性带来的
影响. 在 ReproLink 中, 论文、代码和数据集被抽象为包含标识、属性集、数据实体三要素的科研数据对象. 其中
标识为一个全局唯一的字符串, 用于定位和获取科研数据对象; 属性集为一组键值对的集合, 包括科研数字对象的
各种基本属性, 主要用于描述和发现科研数据对象; 数据实体为科研数据对象包含的数据本身, 例如论文 PDF, 数
据集压缩文件, 源代码等. 其次, 为了支持对复杂复现过程的精确描述, ReproLink 将复现过程中的单个运算步骤建
模为复现单元. 复现单元关联了作为计算场景的论文对象, 作为计算过程的代码对象, 以及若干作为计算输入的数
据集对象, 本质上刻画了这些数据集对象在此数据科学研究场景中的数据语用. 通过多个复现单元与论文、代码、
数据集对象之间构成的网络, ReproLink 提供了一种对于复杂复现流程的精确描述方法, 使得多阶段的复现流程可

416 417 418 419 420 421 422 423 424 425 426