Page 339 - 《软件学报》2025年第10期

P. 339

4736 软件学报 2025 年第 36 卷第 10 期

支持向量机 (support vector machine, SVM) 是一种监督的学习模型, 它主要用于数据分类任务 [1−3] . 支持向量
机在结构风险最小化原则下搜索最优的分类超平面. 归因于支持向量机模型的凸优化性质和良好的泛化性能, 它
已被成功应用于视频分析 [4] 、异常点检测 [5] 、不平衡数据 [6] 等多个领域.
与支持向量机不同, 孪生支持向量机 [7] 寻找两个非平行的超平面, 它能有效地处理交叉或异或等类型的数据.
对于孪生支持向量机, 每类的样本逼近其中一个超平面, 并且远离另一个超平面. 在 SVM 和 TSVM 的基础上, 许
多模型 [8−10] 被提出以增强原有模型的性能. 非平行的支持向量机 [11] 不仅利用不敏感损失函数来维持样本的稀疏
性, 而且能避免矩阵逆运算. 弹球损失函数的 SVM 能减弱异常点的影响, 而基于分位数距离的 TSVM [12] 同样能抑
制数据中的异常点. 弹球损失函数的 TSVM 被推广到更加广义的损失函数 [13] , 这使得弹球损失函数的参数对不同
类的样本是不同的. 为了维持样本的稀疏性, 具有不敏感区的孪生支持向量机 [14] 被提出. 与 TSVM 相比, 它不仅维
持样本的稀疏性, 而且对噪声不敏感. 为了充分利用样本的几何性质, 基于弹性网的非平行的支持向量机 [15] 被提
出. 为了有效地抑制数据中的异常点, 直觉模糊孪生支持向量机 [16] 被提出. 直觉模糊孪生支持向量机为每类样本
构建了直觉模糊集并使用直觉模糊集定义样本的权重. 为了处理数据漂移问题, 聚合算子被融合到模糊支持向量
机 [17] . 非对称的对偶回归模型 [18] 利用 TSVM 和可能性回归分析构建了新颖的超平面学习模型.
在实际应用中, 人们可能在不同的粒度下探索同一对象, 即同一对象的属性在不同的粒度下具有不同的值. 例
如某人的头衔有多个、可能掌握多种外语、爱好有多个、物体的深度特征包含多个神经网络层的输出等. 这样许
多对象的属性是用多个值来描述的, 即采用集合的概念描述对象的属性, 从而形成集值数据 [19−22] . 集值数据是由集
值对象构成, 而一个集值对象通常包含多个数据点或事例, 如图 1(a) 中每个虚线框内的数据点构成一个集值对象.
集值数据已在数据挖掘 [20] 和决策系统 [21,22] 中被探索. 在集值数据分析中, 目前已经提出许多集值数据分类的方
法 [23−26] . 二阶锥规划 (second-order cone programming, SOCP) 方法 [23] 把集值对象建模为具有二阶矩的随机向量. 高
斯分布的支持向量机 (support vector machine with Gaussian distribution, SVMG) [24] 把集值对象建模为高斯分布的
随机向量. 不确定感知的孪生支持向量机 (uncertainty-aware TSVM, UTSVM) [25] 利用二个超平面处理二元分类问
题. 具有分布输入的模糊孪生支持向量机 (fuzzy TSVM with distribution input, FTSVMD) [26] 通过建模输入为高斯分
布的随机向量来处理集值数据. 支持测度机 (support measure machine, SMM) [27] 首先利用概率分布建模集值对象并
定义集值对象之间的相似度, 接着利用支持向量机分类数据. 如果采用 SOCP, SVMG, UTSVM, FTSVMD 和 SMM
方法来处理集值对象, 需要对集值对象进行概率建模. 如果集值对象包含少量数据点, 那么对集值对象进行概率建
模可能是不可靠的或不准确的, 而且通常集值对象中事例的概率分布未知. 不同于概率建模的方式, 支持函数机
(SFM) [28,29] 利用集合的支持函数将集值对象转化成连续函数. 由连续函数空间构成巴拿赫 (Banach) 空间 [30] , 在此
基础上构建了基于铰链损失函数的超平面学习模型. 为了探索输出为三角模糊数的形式, 可能性测度被用来推导
出模糊支持函数机 (fuzzy SFM, FSFM) [31] , FSFM 考虑了模糊类样本的隶属度. FSFM 和 SFM 的主要区别在于前者
将样本的标签建模为三角模糊数而后者的标签是标量形式. FSFM 也不需要为集值对象进行概率建模.

(a) 原数据空间的集值对象 (b) 由集值对象生成的连续函数
图 1 二维空间的两类集值数据和对应的连续函数

334 335 336 337 338 339 340 341 342 343 344