Page 421 - 《软件学报》2025年第12期
P. 421

5802                                                      软件学报  2025  年第  36  卷第  12  期


                 processes,  and  intricate  computational  environments.  To  address  these  issues,  this  study  proposes  ReproLink,  a  reproducibility-oriented
                 research  data  management  system.  ReproLink  constructs  a  unified  model  of  research  data,  abstracting  it  into  research  data  objects  that
                 consist  of  three  elements:  identifier,  attribute  set,  and  data  entity.  Through  fine-grained  modeling  of  the  reproduction  process,  ReproLink
                 establishes  a  precise  method  for  describing  multi-step,  complex  reproduction  processes.  By  integrating  code  and  operating  environment
                 modeling,  ReproLink  eliminates  the  uncertainties  caused  by  different  environments  affecting  code  execution.  Performance  tests  and  case
                 studies  show  that  ReproLink  performs  well  with  data  scales  up  to  one  million  records,  demonstrating  practical  value  in  real-world
                 scenarios  such  as  paper  reproduction  and  data  provenance  tracking.  The  technical  architecture  of  ReproLink  has  been  integrated  into
                 Conow Software, the only integrated comprehensive management and service platform in China specifically designed for scientific research
                 institutes, supporting the reproducibility needs of hundreds of such institutes across the country.
                 Key words:  scientific data management; reproducibility; digital object architecture (DOA); data provenance; data sharing
                    科研成果的可复现性        (reproducibility) 是科学研究的基石, 它不仅是研究结论可验证的基本保证, 也是研究人
                 员在现有工作基础上推进新研究的基本要求                [1−3] . 然而, 许多科研领域当前存在研究成果的可复现性较差的问题,
                 严重影响了科学研究的可靠性, 这一现象被称为可复现性危机                    (reproducibility crisis) [4−7] .
                    随着大数据时代的到来, 数据科学成为越来越重要的一种研究范式                      [8,9] . 在这一趋势下, 包括医学、社会科学、
                 地球科学在内的各个领域的多种学科都迎来了研究范式的重要转变                        [9−12] . 在数据科学的语境下, 可复现性一般指
                 计算可复现性     (computational reproducibility), 也就是“在相同的分析条件下, 使用相同输入数据、相同计算方法,
                 得到与原论文一致的计算结果” . 和传统研究的复现相比, 对于数据科学研究的复现具有独特的意义: 在复现的
                                         [1]
                 基础上, 研究人员可以在新的场景下诱发数据集、代码等发挥新的价值. 例如百度人工智能团队在复现                                  BERT [13]
                 的基础上通过新增中文数据集并且修改模型掩码模块使其适配中文, 最终形成了百度的文心一言大语言模型                                     [14] .
                 文心一言复用了      BERT  的大部分数据集、模型及代码, 在这一过程中, 科研人员从现有的数据集、代码中挖掘出
                 了新的价值, 极大促进了        BERT  所使用的   English Wikipedia 和  BookCorpus 等数据集以及  BERT  源代码的价值
                 释放.
                    当前, 数据科学研究的可复现性面临着诸多挑战. 首先, 数据科学研究中使用的数据是多源异构的, 这使得研
                 究者获取复现研究成果所需科研数据的过程更加复杂. 大量科研数据分散式地存储在不同平台中, 这些平台之间
                 在数据访问协议和数据格式上存在异构性, 缺乏对科研数据资源的统一建模. 这阻碍了对科研数据的自动化处理,
                 增加了复现过程中获取数据的难度. 其次, 数据科学研究的复现流程是复杂的. 对一篇论文的复现往往需要经过多
                 阶段的数据处理, 其使用的数据集和代码之间具有复杂的逻辑关系. 在大部分的数据科学研究中, 研究者对于数据
                 的计算流程以自然语言的形式分散在论文或论文代码的文档中, 这种记录方式无法精确刻画对数据的处理过程,
                 复现者理解的细微偏差也可能导致最终得出和原作者不同的结果. 最后, 数据科学研究的代码执行环境是复杂的,
                 其中往往存在大量的第三方依赖. 要复现某项成果, 必须先复现其执行环境. 然而, 现有的科研代码共享形式无法
                 较好地支持对执行环境的复现. 例如一项对              Harvard Dataverse 上开源的  R  语言科研代码的研究显示, 38%     的代码
                 由于执行环境不适配而无法执行           [15] . 总而言之, 数据科学研究的复现性因数据的多源异构性、复现流程的复杂性
                 以及执行环境复杂性而面临严峻挑战.
                    针对这些问题, 本文提出了一个面向可复现性的科研数据管理系统                       ReproLink. ReproLink  对论文、代码、数
                 据集这   3  类科研数据建立了统一模型, 基于数据语用理论              (data pragmatics) [16,17] 提出了复现单元的概念. 在此基础
                 上, ReproLink  实现了对于存储在分散式数据仓库中的科研数据的统一管理, 从而缓解了数据的多源异构性带来的
                 影响. 在  ReproLink  中, 论文、代码和数据集被抽象为包含标识、属性集、数据实体三要素的科研数据对象. 其中
                 标识为一个全局唯一的字符串, 用于定位和获取科研数据对象; 属性集为一组键值对的集合, 包括科研数字对象的
                 各种基本属性, 主要用于描述和发现科研数据对象; 数据实体为科研数据对象包含的数据本身, 例如论文                                PDF, 数
                 据集压缩文件, 源代码等. 其次, 为了支持对复杂复现过程的精确描述, ReproLink                 将复现过程中的单个运算步骤建
                 模为复现单元. 复现单元关联了作为计算场景的论文对象, 作为计算过程的代码对象, 以及若干作为计算输入的数
                 据集对象, 本质上刻画了这些数据集对象在此数据科学研究场景中的数据语用. 通过多个复现单元与论文、代码、
                 数据集对象之间构成的网络, ReproLink        提供了一种对于复杂复现流程的精确描述方法, 使得多阶段的复现流程可
   416   417   418   419   420   421   422   423   424   425   426