Page 346 - 《软件学报》2025年第10期
P. 346
梁志贞 等: 面向集值数据的孪生支持函数机 4743
σ ϕ(A) (ϕ(x)) = sup{⟨ϕ(x),ϕ(ω)⟩,ω ∈ A} = sup{κ(x,ω),ω ∈ A} (29)
ϕ 给定时, 公式 (29) 也可用于显式的内积运算. 核化过程实际上对
利用定义 4 可取得支持函数的核化. 当确定的
支持函数进行了预处理, 这样核化不影响公式 (13) 和公式 (14) 的凸性. 这也表明即使支持函数采用不定核函数进行核
化, 公式 (13) 和公式 (14) 也是凸优化模型. 因此 TSFM 为不同类型的核函数和显式的内积运算提供了更加灵活的选择.
3 实验结果
本节在模拟的集值数据和一些真实世界的数据集上执行了一系列的实验来验证 TSFM 的有效性. 与 TSVM
一样, TSFM 包含多个超参数, 这些超参数会影响模型的性能. 为了减少模型的超参数, 令 c 1 = c 3 和 c 2 = c 4 , 这些设
i c 2 τ 从 0 和 1 区
定相似于孪生支持向量机的超参数设定. 从集合 {10 ,i = −3,−2,...,2,3} 中选取最优超参数 c 1 和 .
w i , 它度量了每个集值对象的重要性. 为了容易取得权重, 本文首
间以间隔 0.1 选择最优超参数. 对于模型的权重
先取得每个集值对象的均值, 这样许多已有的权重方法 [6,16,17] 可被用来取得集值对象的权重, 从而利用均值取得的
权重作为集值对象的权重. 本文采用模糊权重的方法 [16] 取得每个集值对象的权重. 对于支持函数的核化过程, 我
(
2 )
i
)
(
k x i , x j = exp −
x i − x j
/σ , 其中, {10 ,i = −3,−2,...,2,3} 中取值. 在实际实施时, 为了
们测试了高斯核 σ 从集合
简单性, 我们没有构建集值对象中事例的凸包, 而是使用集值对象中的事例计算出连续函数的值. 对于采样点, 在
下面的具体实验中会提到相应的采样方法. 所有实验均在配备 i7 处理器和 16 GB RAM 的计算机上完成, 采用
Matlab R2020b 编程语言实现了相关算法.
3.1 模拟的交叉类型的集值数据
本节利用交叉类型的集值数据来表明 TSFM 能获取集值数据的内在结构并通过调整参数抑制数据中的离群
T
点. 对于实验, 首先为二元问题的每个类生成 100 个数据点. 正类的样本采用 (z,z) 的形式, 其中 z 取自区间 [−5,5]
T
的均匀分布. 负类的样本采用 (z,−z) 的形式. 为了生成集值数据, 在每个数据点的基础上, 产生对应的高斯分布,
其均值来自每个数据点, 协方差矩阵设定为 (0.1,0;0,0.1). 根据高斯分布, 为每个集值对象生成 5 个事例, 这实际上
每个集值对象包含 5 个数据点. 这样从原始数据点构造了集值数据. 图 2 表示了 TSFM 采用线性核并在不同超参
数 τ 下的实验结果, 其中, c 1 = c 3 = 1 和 c 2 = c 4 = 100. 从集值数据中采样数据点, 利用 TSFM 取得了如图 2(a)
所示的交叉线. 从图 2 可看出, 在没有离群点的情况下, 超参数 τ 对超平面的影响不是很大, 在不同的 下 TSFM
τ
能获取集值数据的内在结构. 为了验证 TSFM 能否抑制离群点, 在原数据集的基础上, 人为增加了一些离群点. 图 3
表示了包含离群点的集值数据. 从图 3 可知, 一些数据点位于另一类对应的直线附近. 从图 3 可知, 当数据包含离
群点时, τ 的变化明显影响了 TSFM 的性能. 当 τ = 0 和 τ = 0.8 时, 利用 TSFM 取得的交叉线偏离实际交叉线. 当
τ = 0.5 时, 利用 TSFM 取得的交叉线和实际交叉线相差不多, 这说明在离群点的情况下, 可调整参数 τ 获取集值数
据的内在结构. 实验结果表明: 弹球损失函数的孪生支持函数机通过调整超参数 τ 可捕捉集值数据的内在结构.
5 5 5
4 4 4
3 3 3
2 2 2
1 1 1
0 0 0
−1 −1 −1
−2 −2 −2
−3 −3 −3
−4 −4 −4
−5 −5 −5
−5 0 5 −5 0 5 −5 0 5
(a) τ=0 (b) τ=0.5 (c) τ=0.8
图 2 在交叉类型的集值数据上由 TSFM 取得的超平面

