Page 340 - 《软件学报》2025年第10期
P. 340

梁志贞 等: 面向集值数据的孪生支持函数机                                                           4737


                    然而, 现实世界可能存在图         1 所示的交叉类型的集值数据. 图         1 表示了交叉类型的集值数据及其生成的连续
                 函数, 每一种颜色表示一类集值对象. 从图            1 可观测到两类集值数据位于两条交叉线附近. 图              1(a) 中的每个虚线框
                 内的数据点构成一个集值对象, 图           1(b) 中的每条曲线表示一个连续函数, 这样一个集值对象被转化成巴拿赫空间
                 的连续函数. 从图     1 可知需要两个超平面拟合这种类型的集值数据. 受孪生支持向量机和支持函数机的启发, 本文
                 提出了一种新颖的超平面学习模型, 即孪生支持函数机 (twin support function machine, TSFM), 它能直接处理集值
                 数据. TSFM 在二元分类问题上可取得两个非平行的超平面. 当实施 TSFM 时, 需要将集值对象转化成连续函数.
                 与 SFM 不同, TSFM 采用了弹球损失函数并利用两个非平行的超平面拟合集值数据. 原模型是无穷维空间的优化
                 问题. 为了解决这个问题, 通过将测度空间限定为由狄拉克测度的线性组合形成的空间来取得有限维空间的优化
                 模型. 通过采样策略将模型转化成二次规划问题, 并利用二次规划的优化算法求解转化后的模型, 这样本文的算法
                 不同于求解 SFM 的算法. 为了对 SVM, SFM, TSVM 和 TSFM 进行比较, 表          1 列出了它们的区别与联系. 从表         1 可
                 看出, TSFM 需要解决二次规划问题, 而 SFM 处理线性规划问题. 由于 TSFM 采用了测度的总变分作为正则化项,
                 所以它对采样点保持稀疏性. 简言之, 本文的主要贡献如下.
                    (1) 提出了一种新颖的超平面学习模型对集值数据进行分类, 它利用了弹球损失函数并考虑了集值对象的权重;
                    (2) 将测度空间限定为狄拉克测度的线性组合构成的空间, 这使得无穷维空间的优化问题被转化成有限维空
                 间的优化问题, 并利用采样策略将模型转化成二次规划问题, 同时推导出二次规划问题的对偶形式以及讨论了基
                 于核函数的支持函数;
                    (3) 在合成的集值数据和真实数据集上执行了一些实验, 实验结果表明了 TSFM 能有效地分类集值数据.

                                            表 1 SVM, SFM, TSVM 和 TSFM 的特性

                    分类器       样本属性        支持向量的稀疏性             特征空间           目标函数          超平面的个数
                    SVM       向量形式             稀疏            希尔伯特空间         二次规划问题              1
                    SFM       集合形式             稀疏             巴拿赫空间         线性规划问题              1
                    TSVM      向量形式            半稀疏            希尔伯特空间         二次规划问题              2
                    TSFM      集合形式             稀疏             巴拿赫空间         二次规划问题              2

                    本文第 1 节简要回顾支持函数机. 第 2 节首先引入 TSFM 的优化模型并讨论                  TSFM 的一些性质, 随后将其转化
                 为易处理的模型并将支持函数扩展到核函数. 第 3 节在许多数据集上评估                     TSFM 的性能. 最后一节给出结论和展望.

                  1   支持函数机

                                                                           m
                                    n 个集值对象表示为                            R  中包含多个元素的子集,      y i ∈ {−1,1} 是
                    对二类集值数据, 令                     {(A i ,y i ),i = 1,...,n}, 其中  A i  是
                                A i  只包含一个数据点时, 集值数据退化为向量值数据. 为了有效地处理集值数据, 支持函数机                      [28]
                 集值对象的标签. 当
                 被提出. 与向量值数据不同, 集值数据的特征是用集合的概念来描述的. 对于支持函数机, 需要下面的定义和定理.
                    定义           m                                σ A (x) 被定义为:
                        1. 设   A 是   R  中的非空闭集. 与集合   A 相关的支持函数
                                                  σ A (x) = sup{< x,ω >,ω ∈ A}                        (1)
                 其中,   < x,ω > 表示  x 和  ω 的内积运算. 支持函数也被称为支撑函数, 为了概念的一致性, 本文采用了支持函数的概
                 念. 支持函数   σ A (x) 是凸的、齐次的和次加性的函数. 利用支持函数的定义可知                σ A (x) = σ co(A) (x), 其中   co(A) 表示  A
                                                                                      x 的连续函数. 考虑由集
                 的凸包. 定义 1 实际上构建了集合和函数之间的关系. 从支持函数的定义知                     σ A (x) 是关于
                 合   X  上的连续函数构成的函数空间, 表示为         C(X). 通过定义连续函数的范数,       C(X) 形成了一个巴拿赫      (Banach) 空
                 间  [30] . 巴拿赫空间是一个完备的赋范线性空间, 也就是一个具有范数和度量完备性的线性空间. 在这个空间中, 任
                 何一个柯西序列都有一个极限, 且该极限也在这个空间中. 与希尔伯特空间不同, 巴拿赫空间缺乏内积运算, 但在巴
                 拿赫空间可构造线性泛函来获得它的对偶空间. 以下定理表明了连续函数空间                         C(X) 和对偶空间的关系.
                    定理  1 [28,30] . 设  X  是局部紧豪斯多夫  (Hausdorff) 空间,  C(X) 表示在  X  边界上为  0  的连续函数空间. 对于  C(X)
                 中的任意连续函数      σ(x) 都存在正则的博雷尔       (Borel) 测度  µ 使得公式  (2) 成立:
   335   336   337   338   339   340   341   342   343   344   345