Page 423 - 《软件学报》2025年第12期
P. 423

5804                                                      软件学报  2025  年第  36  卷第  12  期


                 地的数字对象仓库中. 通过数据实体和元数据分离的方式, DOA                  使得没有权限访问数据实体的数据使用者也可以
                 通过元数据发现数据. 通过对现有互联网上分散的异构信息系统进行统一管理、协同操作, DOA                              旨在消除这些系
                 统之间的数据孤岛, 实现异构、异地、异主数据的互通互联和互操作                      [24] .
                    ReproLink  基于数字对象架构实现, 将论文、代码、数据集这              3  类科研数据对象实现为       DO, 并将属性集实现
                 为  DO  的元数据. ReproLink  为每个科研数据对象注册全局唯一的标识, 并将它们的数据实体保存在数字对象仓库
                 中. ReproLink  使用标识解析协议    (identifier resolution protocol, IRP) [25] 和  DOA  中的标识解析系统通信, 并通过数
                 字对象接口协议      (digital object interface protocol, DOIP) [26] 和数字对象仓库通信.
                  1.3   科研数据关系挖掘
                    科研数据之间的关系蕴含着丰富的信息, 具有重要的价值. 许多工作使用统计学、图学习等领域的算法对这
                 些科研数据之间的关系进行挖掘, 从中得出了有意义的结论. Small                  [27] 基于两篇论文引用文献的相似度, 提出了一
                 种新的衡量文档相似度的度量标准. Nayyeri 等人           [28] 提出了一种嵌入模型     Trans4E, 可以根据现有的科研数据之间
                 的关系预测新的关系. Effendy     等人  [29] 通过分析计算机领域的论文引用关系和论文关键词, 对计算机领域的研究趋
                 势进行了分析和预测. 通过科研数据间关系的一阶实体化, ReproLink                为科研数据之间的关系挖掘提供了一个统一
                 的框架, 从而促进了这些对科研数据之间关系进行分析的工作.
                    Microsoft academic graph (MAG) [30] 是一个由科研数据及他们之间关系构成的知识图谱, 其中的实体包括文章、
                 专利、代码、数据集等. SemOpenAlex       [31] 中囊括了论文、作者、期刊、概念等多种实体, 汇聚了超过                 2 600  万条
                 表示数据间关系的三元组. Linked Papers with Code   [32] 是基于  Papers with Code 数据集, 其中包括  40  万个机器学习
                 领域的论文, 以及这些论文与他们对应的代码之间的关系. ReproLink                使得创建面向可复现性的类似形式的数据集
                 成为可能, 在未来也可以利用这些现有数据集中的关系来加强                  ReproLink 中基于数据之间的关系进行数据发现的能力.

                  2   概念定义

                    在数据科学研究的复现过程中, 论文、代码和数据集是                  3  类必不可少的科研数据. 论文是复现的整体场景, 其
                 中包含了研究的背景和方法论, 若去掉论文, 研究的复现便退化成为单纯的代码执行, 失去了其本来的意义. 代码
                 是复现的具体计算步骤, 若没有代码, 即使有论文中的方法论和算法描述, 也难以准确复现研究中的实现细节. 数
                 据集是用于复现的基础材料, 若没有研究的原始数据集, 实验就无法基于相同的数据进行, 从而无法验证结果与原
                 论文是否一致. 而若能成功获取这           3  类数据, 复现者便可将原始数据集作为输入, 运行复现代码, 并将最终结果与
                 论文比对, 验证复现是否成功.
                    ReproLink  将论文、代码和数据集建模为包含标识、属性集以及数据实体                    3  类数据要素的科研数据对象, 在
                 统一的框架下实现了对异构科研数据的表征. 其中, 标识为一个全局唯一的字符串, 数据使用者可以通过标识定位
                 和访问科研数据对象. 属性集为一组键值对的集合, 包含了科研数据对象的基本信息, 通过对于属性集的匹配查
                 询, 可以实现对科研数据对象的检索和发现. 数据实体则为科研数据对象包含的数据本身.
                    科研数据对象的模型建模了科研数据的语义信息, 其元数据和数据实体包含了科研数据本身固有的, 不受外
                 界因素影响的含义. 然而, 科研数据对象的模型并不包含数据在某个特定的复现场景中表现出的信息. 为了表征这
                 一信息, ReproLink  基于数据语用原理     [16] 对科研数据在具体复现场景中的含义进行了建模. 数据语用即“数据在特
                 定的语境中的含义”      [16] , 指的是数据与应用的具体结合方式. ReproLink      通过复现单元来刻画科研数据的数据语用.
                 复现单元为一类特殊的科研数据对象, 代表了复现中的单个计算步骤, 为一次复现的最小组成单位. 复现单元通过
                 关系对象与论文、代码、数据集以及其他复现单元之间联系, 每个复现单元关联了作为计算场景的论文、作为计
                 算过程的代码对象, 以及若干作为输入数据的数据集对象或其他复现单元. 对于一篇论文的完整复现过程由一系
                 列复现单元以及他们之间的关系对象构成.
                    定义  1 (科研数据对象). 具备以下特征的对象被称为科研数据对象.
                                               I
                    1) 科研数据对象     O = (I,P,E), 其中   为标识,  P 为属性集,  E  为数据实体. 设全体科研数据对象的集合为          O, 全
   418   419   420   421   422   423   424   425   426   427   428