Page 345 - 《软件学报》2025年第10期

P. 345

4742 软件学报 2025 年第 36 卷第 10 期

ˆ θ k , 0. 利用互补条件得到 x k 不是支持向量.
¯ α k = 0 和 ˆ α k = 0, 从而取得 α k = 0, 这表明
定理 5. 假定求解公式 , , ¯ x k 满足:
(24) 取得最优解 η i (i = l+1,...,n) ¯η i ˆη i (i = 1,...,l), 如果采样点

l ∑
n ∑

y i (¯η i − ˆη i )σ i (¯ x k )+ η i σ i (¯ x k ) < c 4 (26)

i=1 t=1+1
那么 ¯ x k 不是一个支持向量.
定理 5 的证明相似于定理 4 的证明. 定理 4 和定理 5 表示了哪些采样点不影响公式 (13) 和公式 (14) 的解, 这
说明借助对偶解可确定原问题的最优解的哪些分量是 0. 公式 (23) 和公式 (24) 的目标函数不依赖于采样点, 这为
设计有效的策略来处理采样点提供了一些提示. 例如, 当存在大量采样点时, 可首先选择一小部分采样点, 并假定
s 1 个采样点, 求解公式 (23) 和公式 (24), 然后利用定理 4 和定理 5 删除那些非支
选取 s 1 (<< s) 个采样点, 利用这
持向量的采样点. 在这种情况下, 从采样点获得一批支持向量, 并利用这些选定的支持向量训练公式 (13) 和公式 (14).
利用这种策略得到 (α,b 1 ) 和 (β,b 2 ) 并取得两个非平行的超平面. 不同于 SFM, 为了分类集值数据, 需要定义集值对
象 A 到超平面的距离.
∫
定义 3. 从集值对象 A 到巴拿赫空间的超平面 σ A (x)dµ(x)+b = 0 的距离表示为:

X ∫

σ A (x)dµ(x)+b

D(A,(µ,b)) = X (27)
∥µ∥
从公式 (27) 可知计算距离 D(A,(µ,b)) 需要积分运算, 直接求解积分取得距离是不可行的. 在实际实施时需要
借助采样点来离散化距离并取得近似距离. 基于定义 3, 本文采用下面判决规则来取得集值对象 A 的标签:

∫ ∫ 

 
 
 σ A (x)dµ 1 (x)+b 1 σ A (x)dµ 2 (x)+b 2 
 
 
 
 X X 
argmin  ,  (28)
 
 
 µ 1 µ 2 
 
 
 
从公式 (28) 可知判决规则中的距离函数需要利用采样点进行离散化. 从公式 (13) 和公式 (14) 可知 α 和 β 采
用了 L1 范数的约束, 因此采样点是稀疏的. 为了便于理解 TSFM, 算法 1 列出了使用 TSFM 对集值数据进行分类
的伪代码. 从算法 1 可知, 由于公式 (11) 和 (12) 对应不同的优化问题, 算法 1 的步骤 3 和 4 可选择不同的采样点.
但在实际实施过程中通常采用相同的采样点.
算法 1. TSFM 的伪代码.
c 1 ,c 2 ,c 3 ,c 4 ;
1. 设定参数
2. 利用支持函数取得连续函数 σ i (x) = σ A i (x)(i = 1,...,n);
3. 对于公式 (11), 从集值对象 A i (i = 1,...,n) 采样 s 个数据点, 表示为 x 1 ,..., x s ;
4. 对于公式 (12), 从集值对象 A i (i = 1,...,n) 采样 s 个数据点, 表示为 ¯ x 1 ,..., ¯ x s ;
5. 通过求解公式 (13) 和公式 (14) 取得 (α,b 1 ) 和 (β,b 2 );
6. 利用公式 (28) 分类集值对象 A.
2.3 核函数空间的支持函数
为了探索数据的非线性特征, 基于核函数的学习方法 [33] 利用非线性映射把原特征映射到高维空间. 令 ϕ 表示
非线性映射, 由内积定义的核函数表示为 κ(x i , x j ) =< ϕ(x i ),ϕ(x j ) >. 如果给定核函数, 则核方法不需要非线性映射
的显式表示. 高斯核和多项式核是广泛使用的核函数, 它们通常是正半定的. 使用正定核函数是确保支持向量机在
对偶空间的目标函数是凸函数. 然而, 对于孪生支持函数机, 模型的优化变量为测度, 测度依赖于采样点的选择, 采
样点影响着支持函数的取值. 这样需要考虑采样点 x 和集值对象 A 的非线性变换 ϕ(x) 和 ϕ(A). 利用这些变换可定
义支持函数的核化. 下面定义给出了支持函数的核化.
定义 4. 令 κ(·,·) 表示核函数以及 ϕ 表示对应的非线性映射. 支持函数的核化被表示为:

340 341 342 343 344 345 346 347 348 349 350