Page 116 - 《软件学报》2021年第11期
P. 116
3442 Journal of Software 软件学报 Vol.32, No.11, November 2021
一般情况下,利用拉普拉斯矩阵(记作 L)将目标函数转化为如下形式:
T
T
m intr (P XLXP ) (2)
P
1.3 自步学习
自步学习 [18,19] 模仿人类学习的方式,从学习简单的知识逐步过渡到学习复杂的知识.自步学习根据置信度
或极大似然函数值对样本进行排序,在迭代过程中,先选择高置信度或高似然值的“简单”样本,然后逐步加入
“复杂”样本.
在自步学习的每一轮迭代中,解决如下的混合整数规划问题:
⎛ n n ⎞
− ∑ v
(W t+ 1 ,v t+ 1 ) = argmin ⎜ ( r W ) + i f ( , ;x y W ) λ ∑ v i ⎟ (3)
i
i
∈
WR d , ∈ v {0,1} ⎝ n i= 1 i= 1 ⎠
其中,r 是关于 W 的正则项,f 是损失函数.v 是自步学习的权重变量,为一个 n 维向量,取值为 0 或 1.v i 取 1,表示第
i 个样本在本次迭代中被选中;否则未被选中.λ决定了每次迭代中选中样本的数量,λ越小,本次迭代就倾向于选
择更“简单”的样本,也就是选择更少的样本.
具体来说,上式可变形为
⎛ n ⎞
− ∑ v
(W t+ 1 ,v t+ 1 ) = argmin ⎜ ( r W ) + i ( ( , ;f x y W ) λ ) ⎟ (4)
i
i
∈
WR d , ∈ v {0,1} ⎝ n i= 1 ⎠
由上式可知:对于第 i 个样本,如果损失小于λ,为了最小化目标函数,v i 的值应该为 1;否则,v i 取值为 0.在训练
过程中,λ值一直在增大,因此更多的样本被选入训练过程.
1.4 多元回归
回归分析反映事物某一特性随其他因素的变化而变化的规律.多元回归分析研究因变量与两个或两个以
上自变量的相关关系问题 [20] .回归分析因其在统计分析方面的优越性,被广泛地运用于工程技术和社会科学等
领域 [21] .
回归分析问题实际上是通过最小化所有样本的类别预测值与真实值之间的偏差,求出对原始数据拟合程
度最好的模型的参数.本文的数据集为连续多标签数据集,利用多元回归分析进行属性选择,并验证所提出算法
的性能.
2 算法描述和优化
2.1 算法描述
数据集 X=[x 1 ;x 2 ;…;x n ],X∈R n×d ,n 为样本数,d 为属性数;数据类别 Y=[y 1 ;y 2 ;…;y n ],Y∈R n×c ,c 为标签数量.
首先给出线性回归学习器的代价函数,本文用均方误差计算损失,将目标函数表示为以下形式:
n
mni ∑ || y i − i − xW || + b 2 2 β ||W || 1 (5)
Wb ,
i= 1
代价函数用 l 2 范数计算损失,W∈R d×c ,b∈R 1×c 分别为回归参数矩阵、回归参数向量.公式(5)对回归参数矩阵
进行 l 1 范数约束,经过优化后得到稀疏解,并基于稀疏的回归参数矩阵进行属性选择.然而,以这种方式计算的代
价函数值容易受异常点、离群点的影响.因为在学习过程中,模型会尽可能拟合噪音,从而导致过拟合.l 1 范数一
定程度上可以缓解过拟合问题,但一般情况下,用 l 2,1 范数处理过拟合更加有效.最终,综合考虑求解稀疏解和解
决过拟合问题,引入 l 2,1 范数,得到目标函数:
n
m in ∑ || y i − i − xW || + b 2 2 β ||W || 2,1 (6)
Wb ,
i= 1
其中,β为参数,平衡损失函数和正则化项.β越大,优化后的 W 矩阵越稀疏.
优化后的 W 矩阵中,稀疏行对应的属性很大程度上是不重要的或者冗余的属性.移除这些属性可以得到新