Page 220 - 《软件学报》2025年第4期
P. 220

1626                                                       软件学报  2025  年第  36  卷第  4  期


                                                      K  个预测概率总和大于概率阈值的数据归类为模糊数据; (3) 剩余
                 于概率阈值的数据归类为可靠数据; (2) 至多前
                 的则是噪音数据.

                 算法  1. 自动标注数据的分类.
                                                ′  ′                                                 ′  ′
                 输入: 自动标注数据     D auto = {x,P,Y,Para(P ,Y )} , 其中   x,P,Y  分别为主句、预测的概率分布及其关系类别;    Para(P ,Y )
                                   ′   ′
                 是   x 的复述数据, 其中   P  和  Y  分别为预测的概率分布及其关系类别;
                 超参数: 可靠数据的概率阈值         T  , 模糊数据的候选类别数约束       K;
                 输出: 可靠数据    D con  , 模糊数据  D amb  和噪音数据  D noisy  .
                                ′
                                   ′
                 1. for   (x,P,Y,Para(P ,Y )) ∈ D auto   do
                 2.     p,y ← max(P,Y)  // 得到主句中预测最高的概率值   p 及其对应类别    y
                 3.  if   p > T
                 4.   Append   (x,y)  to    D con
                 5.   continue
                 6.  else
                                     ′  ′
                 7.      p,y ← max(Para(P ,Y ))  // 得到复述包中预测最高的概率值   p 及其对应类别    y
                        p > T  then
                 8.   if
                 9.      Append    (x,y)  to   D con
                 10.    continue
                 11.   end if
                 12.  end if
                 13.     P,Y ← Sort(P,Y)  // 按照  P 中的概率值从大到小排序
                 14.  Let   score = 0.0
                          +
                 15.  Let   C = ∅
                 16.  for   (p,y) ∈ (P,Y)  do
                 17.     score ← score+ p
                 18.   Append    y  to   C  +
                 19.   if   score > T   then
                 20.    break
                 21.   end if
                 22.  end for
                           +
                 23.  if   len(C ) ⩽ K   then
                                 +
                 24.   Append    (x,C )  to    D amb
                 25.  else
                 26.   Append    x  to   D noisy
                 27.  end if
                 28. end for
                 29. return   D con ,D amb ,D noisy

                 3.3.1    可靠数据的筛选与标注
                    借助复述数据的特性, 即尽管复述句有着不同于原句的短语或结构表达方式, 但其保留了原句中的关系表达.
                 因此, 我们提出一个以原句为主、复述句为辅的可靠数据筛选方法. 在教师模型对未标注数据的预测阶段, 未标注
                 数据以包含主句和辅句们的句子包形式作为输入, 并输出句子包中所有句子的概率预测分布. 算法                                1  中第  2–5  行
   215   216   217   218   219   220   221   222   223   224   225