Page 297 - 《软件学报》2026年第1期

P. 297

294 软件学报 2026 年第 37 卷第 1 期

变成了一个可以动态更新、自我调整的智能化系统.
6.2 未来研究方向展望及挑战
数据库是现代信息系统中的关键基础软件, 而查询优化器作为数据库系统的核心组件, 其性能直接影响数据
处理效率和系统整体表现. 与人工智能技术在其他领域的应用相比, 将人工智能技术引入查询优化面临更多独特
的挑战. 其中最关键的挑战就是: 智能查询优化算法在走向实践的过程中需要证明其在某些极端情况下的性能上
限高于传统优化器, 又需要确保其在普适的环境中的性能下限不低于传统优化器. 这就要求智能查询优化算法不
仅需要创新, 也需要兼顾很高的可用性, 从而实现更稳健、更智能的优化能力. 在这一背景下, 智能查询优化算法
在实际应用中依然面临很多问题, 解决以下 5 点瓶颈有望成为推动智能查询优化算法发展的关键.
● 降低查询优化模型训练和推理的开销: 传统优化器本身的启发式算法复杂度较高, 而当研究者们开始用机
器学习模型替换这些算法的时候, 经常会强调其模型在收敛之后得到的优化效果相较于传统优化器提高了若干
倍, 而很少关注其优化模型本身的训练和推理开销. 实际上, 对于一些智能查询优化算法而言, 只是训练机器学习
模型就需要花费大量的时间和空间, 还有一些算法在推理阶段需要枚举比传统优化器多数倍的候选计划进行代价
评估. 通过花费这样的高代价才能获取到一个性能超越传统优化器的模型在实际的应用场景中很难被接受. 未来
的研究中应当注意此方面的问题, 比如可以使用一些轻量化的机器学习模型或采用知识蒸馏等机器学习技术来降
低开销.
● 适应查询负载和数据分布的漂移: 使优化算法可以应对查询负载和数据分布的漂移是确保其下限不低于传
统优化器下限的关键能力. 现有的智能查询优化算法有很多是在固定的数据集上进行训练, 然后再在固定的数据
集上进行测试. 在此过程中数据库中的数据几乎不会发生增删改查, 用于训练的查询语句也只是结构比较固定的
SPJ 查询. 即使有少数方法通过实验证明可以做到对抗一定程度的波动 (比如部分关系模式发生变化, 查询语句的
格式和部分数据发生变化等), 但其能对抗的波动程度也不及实际场景中的会发生的波动. 如果不能很好地解决适
应性的问题, 这些智能查询优化算法应用于实际场景中就需要频繁的重新训练或增量学习. 未来的研究可以更加
关注如何将迁移学习、元学习和领域泛化等技术应用于智能查询优化算法中, 从而使其具备更强的适应能力.
● 高效获取高质量的带标注的物理计划: 没有高质量的训练数据, 就没有高质量的优化模型. 而为了收集高质
量的数据, 研究者们经常需要在数据库中频繁地执行查询语句然后抽取其对应的物理计划和代价作为数据和标
注. 相较于一些其他可以通过人工标注获取数据的任务而言, 在数据库中执行查询语句然后进行标注的速度是非
常慢的. 同时对于许多查询优化任务, 研究者们需要来自更多样化场景的数据, 比如覆盖金融、医疗、电子商务等
[3]
[1]
多个方面的关系模式和数据分布, 而不只是现有常用的几个固定的数据集 (TPC-DS , JOB 等). 这些高质量的数
据在现阶段获取的难度依然较高, 是智能查询优化算法发展的一个瓶颈. 未来的研究除了研究算法与模型本身, 应
适当关注如何高效获取高质量的训练数据.
● 理解实际复杂生产环境中的语义信息: 查询优化面临的问题经常包括很复杂的语义信息, 有时单独使用固
定的编码方式和深度学习模型有限的理解能力很难考虑周全. 比如一般的深度学习模型很难注意到在硬件环境、
操作系统、数据分布、查询负载都不相同的两个优化场景在某一步上可以进行的优化操作可能是同理的. 而这些
语义信息对于数据库中优化任务而言又是至关重要的, 所以现在一些研究者已经开始使用大语言模型助力数据库
的优化从而有效利用这些信息. 比如使用大语言模型助力数据库优化过程的研究已经在参数调优 [103,104] , 运维诊
断 [105] 以及与数据系统交互的方面 [106] 都有了一些初步的尝试, 而在查询优化方面的应用还处于比较初级的阶段,
未来的研究或可在此方向继续进行尝试.
● 增强智能查询优化的安全性: 现有研究多聚焦于优化效率与性能提升, 而并未充分关注智能查询优化算法
的安全性问题. 例如, 基于机器学习的代价模型可能因对抗样本攻击而失效 [76] , 恶意用户可通过构造特定查询诱
导优化器选择高代价计划, 导致服务降级. 此外, 隐私保护场景下 (如医疗、金融数据库), 虽然智能查询优化算法
不会直接泄露具体的数据, 但是不能排除它可能会在训练或推理阶段泄露敏感数据的分布特征 (如均值、方差
等) [107,108] . 未来可能需探索对抗训练、差分隐私 [109] 等技术在查询优化中的应用, 同时设计可解释性更强的模型以

292 293 294 295 296 297 298 299 300 301 302