Page 146 - 《软件学报》2020年第12期
P. 146
3812 Journal of Software 软件学报 Vol.31, No.12, December 2020
我们平衡所选集合中的类别,这意味着集合大小为 K 的 S 中,每个类别标签的比例与整个数据 N 相同,即:
y
y
y
对 K 中任意 y∈Y,使得|S∩N |=KN /N;否则,将 KN /N 舍入到最接近的整数.通过加入平衡和约束条件|S|=K,可以得
y
y
到所有 y∈Y 都满足 m y (S)=S∩N =KN /N.
(2) 怎么选?
在小批量主动学习设置中,每轮选取小批量数据样本进行标记.例如:批量抽样想要获得 Q=KT 标记的样本,
其中,K 是每轮迭代选择的样本数,T 是轮数.给定一组标记的样本 L,在每一轮 t 中,算法给每个样本 u∈U\L 打上
t
0
分值 ρ > .在前面的步骤下,受文献[21]方法的启发,本文定义提出方法的子模函数,它考虑了数据对数似然函
u
N
数集 f:2 → ,将每个子集 S⊆N 映射到整个集合 N 上的对数似然分值:
f ( )S = log (p x i | y i ; ())Sθ ∑ + ∑ log ( ; ()),p y θ i S
iN i N
∈
∈
i
i
其中,p(x i |y ;θ(S))和 p(y ;θ(S))分别是样本 i∈N 带有参数θ(S)的生成式和先验式似然.子数据集选择的思想:选择
i
i
一个小样本集 S,使得 f(S)最大化.本文把先验表达为 (; ( ))py θ S = m ( )/ | |S S ,其中: mS = () ∑ 1{y = i } y ,p(x i |y ;
∈
y i y iS
i
2
d
||
θ(S))中带有标签 y ,并由最接近样本 i 的样本 j 决定.例如 ∈j argmax ( , )w i s ,其中, (, )wi j =− x i − x j || 定义样本
2
i y
sS
∈∩N
对 i 和 j 的相似性, d = max || x n − x n′ || 是最大化的样本距离.生成式似然函数可表达为
2
2
′∈
∈
nN ,n N
( p x i | y i ; ( ))Sθ = ce || − i − x x j 2 2 || = ce wi (, ) j − d = c e ′ wi ( , ) j = c′ exp ⎛ ⎜ max w s ⎞ ⎟ .
( , )i
⎝ sS N i y ⎠
∈∩
( , )i
其中,c 和 c′都是常数.所以,log (p x i | y i ; ( ))Sθ = logc′ + max w s 可以表示为
∈∩
sS N y i
( )logm S
f () S = ∑ ∑ max w i s + ( , ) ∑ m N y ( ) | N− | log | | S + C .
y
∈
∈∩
∈
∈
yY iN y sS N y i y Y
子模函数的第 1 项是:
( , )
f () S = ∑∑ max w i s .
∈
∈∩
∈
yY iN y sS N i y
y
因为 m y (S)是平衡的,所以第 2 项也是常数.M(N,I)是使用分区的分区拟阵(partition matroid) N y Y∈ ,其中,分区
y
y
的数据 B(M)可以定义为 B(M)=S⊆N:|S∩N |=K|N |/|N|,∀y∈Y.因此,平衡大小为 K 的数据集 S 等价于 S,并且是分区
M 中的一部分,即 S∈B(M).同理,第 2 项和第 3 项也是常数.因此,带约束的子模最大化问题可以表示为
max f ( ).S
SB∈ (M )
t
由于不知道样本 U 的标签,根据关联概率,使用最可能的预测 ˆ y ;然后,在数据集U t (2 U t → + ) 使用子模块
u
对象 f;最后,解决以下的优化问题:
max f ( ).S
||SK= ,S U⊆ t
求解方式引用了文献[21]的方法.自适应批抽样主动学习的伪代码见算法 1.
算法 1. 自适应批抽样主动学习(AdaActive).
输入: ,, ,{ }UT K β tt= 1 ,初始标记样本 L;
T
输出:标记样本 L.
1. repeat
t
2. 用标记样本 L 训练模型,并产生监督分值ρ ;
t
t
3. U ∈ argmax ∑ ρ ;
∈
u
uU L U = ⊆ \;| | β t uU
t
4. 获得最优可能的类别并当作假设类别 ˆ {} t 和样本 U ;
y
∈
u uU
U
t
y
5. 在假设类别 ˆ {} t 和样本 U 上实例化 f ˆ :2 → ;
∈
u uU t +
t
6. 解决 L ∈ argmax fS ;
( )
|| S = K ;S U t \L
⊆