Page 309 - 《软件学报》2026年第1期
P. 309
306 软件学报 2026 年第 37 卷第 1 期
准 vDM 算法, 以及一种高效的 vDM 算法 privacy-aware tree (PAT).
2.1.3 热点问题
● 可行的数据最小化定义: 虽然数据最小化原则早在 2018 年欧盟《通用数据保护条例》出台时便被提出, 但
是此举仅从法律层面对数据采集规范进行约束, 并未从技术层面提供明确可行的应用与评判标准, 在生产实践中
缺少可操作性. 数据最小化原则要求在数据收集中只获取为实现明确目的所需的最低限度的数据, 但是根据过往
实验规律, 数据处理目的的实现往往与数据的质量和数量紧密相关, 如何判断处理目的是否得到良好实现, 所使用
的数据是否满足数据最小化原则和如何选取数据最小化策略等问题都存在着进一步讨论的空间. 举例而言, 在机
器学习领域, 训练模型的质量与参与模型训练的数据量存在紧密联系, 为判断是否实现模型的训练目的, 研究者通
常会使用一种或多种模型评价指标如准确率进行评估, 要求性能指标在不低于一定阈值的前提下进行数据的筛
选. 在上述过程中, 与性能相关的评估指标成为评价数据处理目的是否实现的标准, 研究者选取合适的数据最小化
策略对数据进行筛选, 从而保证模型训练的过程满足数据最小化原则. 类似地, 在个性化推荐领域, Biega 等人 [9] 首
次注意到个性化领域缺乏对数据最小化原则的统一解释, 根据选取性能评估指标的不同 (个人性能指标和全局性
能指标), 创造性地提出两种基于性能评估的数据最小化定义, 并通过充分实验对两种定义的可行性、不同最小化
策略对推荐性能的影响等问题进行了深入讨论. 实验结果表明数据最小化带来的全局性能下降可能并不显著, 但
会不同程度地影响不同用户, 即在个人性能指标上出现较大差异. 此外, 数据最小化可能会损害边缘化群体, 特别
是如果这些群体在数据中占少数的话——多数人群的成员只需少数特征就能得到良好的服务, 而少数人群需要提
供更多特征才能获得同等质量的服务.
● 数据最小化审计: 伴随着国家加大数据隐私监管力度, 数据最小化审计得到广大研究者的重视. Galden
Clavell 等人 [10] 为此在其开发的个性化健康推荐应用 REM!X 量身设计审计算法, 在避免收集性别、年龄、种族、
宗教或其他受保护属性的前提下, 通过建立焦点小组、使用间接证据等方式尝试分析是否满足数据最小化等数据
伦理原则. 此外, 针对黑匣子预测模型, Rastegarpanah 等人 [11] 为判断模型是否满足数据最小化原则, 提出了基于模
型不稳定性的 DM 合规性黑盒审核算法, 其核心想法是通过为每个预测模型的输入特征分配一些固定值 (插补),
检查每个特征是否必要, 并衡量模型结果的变化程度.
● 隐私度量: 数据最小化原则的实施一定程度地降低潜在的滥用、未经授权访问或数据泄露的风险, 但是如
何在使用数据最小化策略后在隐私层面进行科学有效地评估同样是值得探讨的问题, 这有助于研究者从除性能表
现以外的层面判断一个数据最小化策略的好坏. 为了更加全面地评估最小化策略的表现, Biega 等人 [9] 创新性地提
出可辨识性 (identifiability) 作为个性化推荐领域的隐私性度量指标, 表征用户数据对抗推断攻击的能力. 该度量指
标表示用户物品集中唯一确定该用户所需的最小数目, 原理与海明距离有异曲同工之妙. 相似地, Ganesh 等人 [7] 在
对机器学习领域的数据最小化进行形式化后, 在实验部分通过对最小化数据集进行重新识别和重构攻击进行综合
评估, 分析了当前数据最小化法规要求在满足隐私期望方面存在的不足之处. 值得一提的是, 该工作首次对最小化
的个性化特点进行分析, 从个性化角度审视最小化与用户隐私的潜在联系.
2.1.4 未来挑战
● 泛用的数据最小化定义: 在现有的数据最小化研究中, 主要给出了机器学习领域、个性化推荐领域中可行
的数据最小化定义 [9,12] , 但是这些研究中给出的最小化定义与该领域中数据的评估指标、数据要素的组成形式等
因素密切相关, 难以直接迁移到其他诸多领域. 此外, 现有研究中给出的数据最小化定义普遍依赖于性能评估指
标. 但是在实际生产实践中, 数据使用者在大规模数据集上往往无法直接获取性能评估指标, 难以根据该指标选取
合适的数据最小化策略以满足不同用户的需求. 因此, 寻求基于性能评估指标之外的可行数据最小化定义成为后
续研究的一大难点.
● 公平性问题: 技术发展过程中不可避免会遭遇各种技术伦理问题, 而已有众多研究表明数据最小化过程中
可能给公平性带来极大挑战. Rastegarpanah 等人 [12] 曾提出了一个基于分类准确性的公式, 研究了数据最小化与满
足其他公平性属性之间的联系, 发现二者之间存在着明显的权衡关系. 此外, Biega 等人 [9] 在观察不同最小化策略
的实验结果时发现, 数据最小化可能会损害边缘化群体, 少数人群需要提供更多特征才能获得同等质量的服务. 虽

