Page 220 - 《软件学报》2025年第4期
P. 220
1626 软件学报 2025 年第 36 卷第 4 期
K 个预测概率总和大于概率阈值的数据归类为模糊数据; (3) 剩余
于概率阈值的数据归类为可靠数据; (2) 至多前
的则是噪音数据.
算法 1. 自动标注数据的分类.
′ ′ ′ ′
输入: 自动标注数据 D auto = {x,P,Y,Para(P ,Y )} , 其中 x,P,Y 分别为主句、预测的概率分布及其关系类别; Para(P ,Y )
′ ′
是 x 的复述数据, 其中 P 和 Y 分别为预测的概率分布及其关系类别;
超参数: 可靠数据的概率阈值 T , 模糊数据的候选类别数约束 K;
输出: 可靠数据 D con , 模糊数据 D amb 和噪音数据 D noisy .
′
′
1. for (x,P,Y,Para(P ,Y )) ∈ D auto do
2. p,y ← max(P,Y) // 得到主句中预测最高的概率值 p 及其对应类别 y
3. if p > T
4. Append (x,y) to D con
5. continue
6. else
′ ′
7. p,y ← max(Para(P ,Y )) // 得到复述包中预测最高的概率值 p 及其对应类别 y
p > T then
8. if
9. Append (x,y) to D con
10. continue
11. end if
12. end if
13. P,Y ← Sort(P,Y) // 按照 P 中的概率值从大到小排序
14. Let score = 0.0
+
15. Let C = ∅
16. for (p,y) ∈ (P,Y) do
17. score ← score+ p
18. Append y to C +
19. if score > T then
20. break
21. end if
22. end for
+
23. if len(C ) ⩽ K then
+
24. Append (x,C ) to D amb
25. else
26. Append x to D noisy
27. end if
28. end for
29. return D con ,D amb ,D noisy
3.3.1 可靠数据的筛选与标注
借助复述数据的特性, 即尽管复述句有着不同于原句的短语或结构表达方式, 但其保留了原句中的关系表达.
因此, 我们提出一个以原句为主、复述句为辅的可靠数据筛选方法. 在教师模型对未标注数据的预测阶段, 未标注
数据以包含主句和辅句们的句子包形式作为输入, 并输出句子包中所有句子的概率预测分布. 算法 1 中第 2–5 行