Page 145 - 《软件学报》2020年第12期
P. 145
李延超 等:自适应主动半监督学习方法 3811
定义 2. 交叉损失函数输出 A 到 B 中列 M 的概率:
P ij ab = ( P B j | A i ) : (= softmax cols (M )) = ij exp(M ij ) ∑ exp(M ′ ij ) .
′ j
所以,从 A i 到 A j 的关联概率是
ab
ba
ab
P aba = (P P ba ) = ij ∑ P P .
ij ik kj
k
不确定性的损失定义为标签正确往返 T 的均匀目标分布与关联概率 P aba 之间的交叉熵 L.只要开始和结束
样本的标签都属于同一类,损失函数就会惩罚错误的关联,并鼓励更正分发:
uncertainty =L(T,P aba ).
其中,带有均匀目标分布:
⎧ 1/ | class ( ) |,A i class ( )A = class (A j )
i
T = ⎨ ,
ij
⎩ 0, otherwise
其中,|class(A i )|是类别 A i 在 A 中出现的次数.均匀分布允许循环机制中开始的标签和结束的标签不一致.
• 代表性
未标记的样本可能是低质量的或含有一些噪声.代表性解释了样本的影响性,并鼓励更好地“影响”其他样
本.为了避免总是在“简单”样本之间建立关联,并降低影响所有样本的复杂度,本文定义均匀目标分布 V 和影响
inf
概率 P 之间的交叉熵 L:
inf
influence =L(V,P ),
ab
其中,B 中样本的影响概率为 P inf = P ,均匀目标分布定义为 V j =1/|B|.
j ij
1.2 自适应选择
样本的不确定性和代表性随着标注样本的过程中需要自适应地调节,受多任务学习 [20] 权重优化的启发,本
文采用自适应优化不确定性和代表性的目标函数学习权重,其目标函数可以表示为
θ
=
L total ∑ .
i i
i
参数θ的选择对主动学习算法性能的影响是很大的;此外,在一些任务中,调节超参数是很花时间的.所以,本
w
文希望学习优化这个参数来自适应的调节样本的不确定性和代表性的权重.定义 f (x)作为样本 x 在神经网络
的输出,对于分类任务,定义概率向量为
w
w
P(y|f (x))=softmax(f (x)).
其多目标的似然可以定义为如下:
w
w
w
P(y 1 ,…,y k |f (x))=P(y 1 |f (x))…P(y k |f (x)),
其中,多目标的输出分别为 y 1 ,…,y k .所以,可以得到多目标最小化的优化函数:
1 1 1 1
L =− log ( ,P y y | f w ( )) ∝x || y − f w ( )|| +x 2 || y − f w ( )|| +x 2 logσ σ ( ) +w ( ) logσ = w + σ .
2σ 1 2 1 2 1 2σ 2 2 2 1 2 2σ 1 2 1 2σ 2 2 2 1 2
w
2
其中, 1 (w)=||y 1 −f (x)|| 表示第 1 个输出变量的损失函数,同理表示 2 (w).我们从数据学习最小化目标函数最后一
项的σ 1 (变量 y 1 的噪声参数)和σ 2 (变量 y 2 的噪声参数),即学习损失函数 1 (w)和 2 (w)的权重θ 1 和θ 2 .当σ 1 增加,其
损失函数 1 (w)的权重减少.反之亦然.
1.3 批抽样选择
本节介绍批量抽样的方法,由此需要注意两个问题:查询哪些样本以及如何在小批量设置中查询.
(1) 选取哪些样本?
主动学习应选择最具信息性和代表性的样本进行查询.正如第 1.1 节所讨论的那样,根据动态信息函数,选
t
取一些具有很高不确定性和代表性的样本 U.具体来说,本文假设 U 中的每个元素 u,输出是分值:
ρ 1 t ,...,ρ .
t
k