Page 337 - 《软件学报》2025年第8期
P. 337

3760                                                       软件学报  2025  年第  36  卷第  8  期


                 的平均语法错误数量更少. 低         BLEU  集的平均错误更多. 虽然该指标仍有一定的改进空间, 但该结果也部分说明生
                 成的注释语句结构通常更简单, 更不容易被现有工具检测出语法错误.

                                 Generate
                        0.017 5                                   100
                                 Dataset
                                 Low-BLEU
                        0.015 0                                    50
                        0.012 5                                    0
                       Density  0.010 0                           −50
                        0.007 5                                  −100
                                                                 −150
                        0.005 0
                        0.002 5                                  −200
                                                                 −250
                            0
                             −250 −200 −150 −100 −50  0  50  100 150   Generate   Dataset  Low-BLEU
                                         flesch_ease
                                          图 10 3  个注释集合在    flesch_ease 指标上的分布

                                            表 12 3  个注释集合的    grammar_error 均值

                                 注释集合              生成注释             参考注释           低BLEU集
                             grammar_error均值        0.036 6         0.161 3          0.234 0

                    对低  BLEU  集中  100  条数据的人工分析显示, 存在自然性问题的参考注释共有                  14  条, 主要问题是句子不完
                 整, 或包含由多个词语拼接形成的词, 极大地影响了代码注释的可读性.
                    这些结果表明, 相比于人工参考注释, 生成的注释更加简单易读, 语句结构通常也更简单. 生成注释中取得较
                 低  BLEU  值的样本, 其参考注释包含的语法错误可能更多. 这种情况下, 参考注释本身存在问题, 用                        BLEU  值评价
                 未必合适.

                 5.4   有用性
                    图  11  展示了生成注释、人工参考注释以及低            BLEU  集中的人工参考注释在有用性的两个指标上的评价结果
                 分布情况. coefficient 反映注释与方法签名的词汇重合程度, 生成注释的              coefficient 值在  [0, 0.3) 区间上的比例明显
                 低于人工参考注释, 而在       [0.5, 1] 区间上的比例非常高. mesia   反映注释相对于方法签名的信息补充程度, 从图中可
                 以看出数据集中的注释在         mesia  指标上的分布呈先上升、后下降的趋势, 而生成注释的                mesia  值则集中分布在最
                 左侧的   3  个区间内. 两个指标的评价结果均反映出生成注释倾向于与方法签名更接近.

                         25                       Generate                                Generate
                                                  Dataset        25                       Dataset
                                                  Low-BLEU                                Low-BLEU
                         20                                      20
                        Probability (%)  15                     Probability (%)  15



                         10
                                                                 10
                          5                                       5

                          0                                       0
                            0    0.2   0.4   0.6   0.8   1.0        0  1  2  3  4  5  6  7  8  9  10
                                        coefficient                              mesia
                                       图 11 3  个注释集合在    coefficient、mesia  指标上的分布

                    关于低   BLEU  集的人工参考注释, 其在       coefficient 指标上更集中分布于靠左的区间, 而在        mesia  指标上则更集
                 中于靠右的区间. 这说明目前的自动注释生成方法在生成具有更多补充信息的注释时面临更大的困难, 而根据前
   332   333   334   335   336   337   338   339   340   341   342