Page 117 - 《软件学报》2021年第11期
P. 117
许航 等:噪音数据的属性选择算法 3443
的属性子集,从而实现维度约简.此时,W 近似于新的低维空间的一组基,在这个低维空间中,样本点之间的关系
应该与原空间保持一致.为了实现这一目的,借鉴 LPP 的思想,将其中的投影矩阵替换为 W 矩阵.此时,目标函数
改进为
n 1 n
min ∑ || y − xW || + b 2 ∑ α − || xW − x W || s + 2 β ||W || (7)
,
Wb i= 1 i i 2 2 , i j i j 2 ij 2,1
其中,α为调节参数,调节该项在目标函数中的比重.S=[s 1 ;s 2 ;…;s n ],S∈R n×n ,S 为权值矩阵,矩阵中,每个元素 s ij 表示
样本之间的邻近关系.当 s ij 取非 0 值时,表示第 i 个样本与第 j 个存在邻近关系;否则,表示样本 i 和样本 j 之间不
⎛ || x − x || ⎞ 2
⎜
存在邻近关系.s ij 可用 exp − i j 2 ⎟ 求得.σ为参数,不失一般性,σ值可设为 1.
⎜ 2σ 2 ⎟
⎝ ⎠
在大数据背景下,学习器往往要处理庞大的数据集,采用自步学习可以实现样本数据的自动增长以及挖掘
模型的快速收敛.在自步学习的迭代过程中,优先选择“简单”的样本,然后逐步加入“复杂”的样本.因此在自步学
习过程中,受样本置信度和算法阈值参数的控制,离群点几乎不会被选中,进一步保证了算法的鲁棒性.此时,目
标函数改进为
n 1 n
min ∑ v i || y i i − xW || + b 2 2 ∑ α − || xW − j || s + 2 2 ij β ||W || 2,1 − λ x W || || 1 (8)
v
i
,,v
Wb 2
i= 1 , i j
其中,v∈R 1×n ,v 为自步学习权重变量,v=[v 1 ,v 2 ,…,v n ].λ为阈值参数,λ>0 为约束条件.v i 的取值由λ值和损失函数值
共同决定:当 v i =1 时,表示第 i 个样本被选入训练过程;否则,表示在下次迭代过程,暂时不考虑第 i 个样本.但是噪
音不是均匀分布在数据集中,绝对化的断定某一个样本是“简单”的或是“复杂”的是不合理的.因此,根据文献
[22]改变关于 v 的正则项,将自步学习中的“硬权重”改为“平滑权重”,目标函数如下:
n 1 n ⎛ 1 ⎞
min ∑ v i || y i i − xW || + b 2 2 ∑ α − || xW − j || s + 2 2 ij β ||W || 2,1 − λ x W ⎜ |||| − v 2 2 |||| 1⎟ (9)
v
i
Wb 2 ⎝ 2 ⎠
,,v
i= 1 , i j
算法 1. 多目的属性选择.
输入:训练样本 X∈R n×d ,Y∈R n×c ,参数α,β,λ.
输出:平均相关系数 aCC,平均均方根误差 aRMSE:
1. 采用算法 2 求解稀疏回归参数矩阵 W∈R d×c .
2. 在原始数据集上,根据得到的 W 进行属性选择,得到新的数据集
3. 在新的数据集上,用支持向量回归(SVR)、核岭回归(KRR)进行回归分析,验证属性选择算法的性能
2.2 算法优化
本节对目标函数进行优化,采用机器学习中常用的求解方法:交替固定变量求导,对目标函数(9)进行求解.
1) 为了方便计算,首先将目标函数进行化简.
(1) 对目标函数第 1 项有如下变换.
首先设置如下变量:
Q = [ v y ; v y 2 ;...; v y n ]∈ R nc× ,
11
2
n
×
G = [ v x ; v x 2 ;...; v x n ]∈ R nd ,
n
2
11
⎛ v ⎞
⎜ 1 ⎟
⎜ v ⎟
U = ⎜ 2 ⎟ ∈ R n× 1 ,
⎜ # ⎟
⎜ ⎟
⎝ v n ⎠
则第 1 项通过如下过程转化:
n n
−
∑ v i || y i − i − xW || = b 2 ∑ 2 || v y i − i − xW ) || =b 2 2 || Q GW − Ub || 2 2 (10)
(
i
i= 1 i= 1