Page 168 - 《软件学报》2021年第10期
P. 168

3140                                 Journal of Software  软件学报 Vol.32, No.10, October 2021

                 bi-direction mutual attention. Finally, the tendency representation of the case description with the guidance of the auxiliary sentence of
                 case are derived, which improve the prediction accuracy of few shot and confusing charges. The experimental results conducted on the
                 benchmark  data  of criminal cases  show  that the  proposed model increases the  F1 value  and prediction  accuracy by 13.2%  and 4.5%,
                 respectively, and increases  the  F1 values for the few shot  charges  and confusing  charges by 4.3%  and 8.2%, respectively,  which
                 significantly enhance the prediction performance for few shot and confusing charges.
                 Key words:    few shot charge; confusing charge; bi-direction mutual attention; multi-granular coding; auxiliary sentence of case


                    罪名预测任务是法律判决任务中一个重要的子任务,在法律领域中发挥着至关重要的作用.目前常见罪名
                 预测准确率比较高,但低频和易混淆罪名的预测准确率却不尽如人意,主要是因为低频罪名数据少和易混淆罪
                 名案情描述相似等原因所致.据统计,截止目前,我国刑法罪名共有 469 类,罪名的分布呈典型的长尾分布(幂律
                 分布的一种形式).在我国几千万的裁判文书数据中,我们统计了大量真实案例数据后发现:案例数据极度不均
                 衡,部分案例的案情描述不易区分.
                    早期阶段,有研究者基于传统的统计学习方法来解决罪名预测任务.也有研究者试图利用字符、单词和短
                 语等浅层文本特征预测罪名.近年来,罪名预测任务通常被形式化为文本分类任务,研究人员大多基于神经网络
                 模型解决罪名预测任务,也有部分研究人员提出融入外部知识共同建模的方法.基于传统文本分类的方法难以
                 从低频和易混淆罪名案例中学习到案件的关键特征,因此,低频和易混淆罪名预测仍然是罪名预测任务的难点.
                 提升低频和易混淆罪名的预测准确率,是法律判决任务有待解决的难题之一.
                    (1)  低频罪名预测
                    我们统计裁判文书案例数据时发现:比较常见的罪名(如盗窃罪、抢劫罪等)占了大约 78%;比较低频的几十
                 类罪名(如倒卖文物罪、高利转贷罪等)只占了不到 0.5%,此类低频罪名中大部分案例数据只有十多条,导致低
                 频罪名可训练的案例数据特别少.因此,基于神经网络模型很难学习到足够的案件关键特征.故而在数据量有限
                 的条件下,低频罪名的准确预测是一个严峻的挑战.
                    (2)  易混淆罪名预测
                    在我国刑事案件数据中,有很大一部分罪名及其案情描述不易区分,比如(抢劫罪,抢夺罪)、(盗伐林木罪,滥
                 伐林木罪)等.此类罪名数据很难提取案例中有效区分因素,容易误导模型学习到彼此的噪声特征,干预模型的
                 判断能力.因此,提高易混淆罪名预测的准确性,也是有待解决的一个难题.
                    对于低频和易混淆罪名预测准确率低这一问题,本文提出一种融入案件辅助句构建双向互注意力的方法,
                 旨在提高低频和易混淆罪名的预测性能.不同于以往传统文本分类的方法,我们主要基于案件辅助句指导案情
                 描述计算多粒度关键信息倾向性表征.拟基于案件辅助句与案情描述构建双向互注意力,捕捉具有案件辅助句
                 感知的案情描述特征,最终提升低频和易混淆罪名的预测准确率.
                    案件辅助句作为案情描述与罪名之间的内在映射,不仅可以为低频罪名扩充关键信息,还可以为易混淆罪
                 名提供有效区分因素.具体来说,我们分析了大量的中国刑事案件数据后,定义了几类案件辅助句.以抢劫罪和
                 抢夺罪为例.首先,由这两类罪名的案件性质可知,这两类罪名均有“故意犯罪行为”和“以非法占有为目的”,以此
                 可区别于其他部分案件(如过失致人死亡罪等);其次,通过案情描述对比分析,如图 1 所示,可知“抢劫罪”的案情
                 描述中包含了“强行推倒”“刺伤”和“威胁”等暴力手段;与之相反,“抢夺罪”的案情描述更倾向于“趁其不备”,未
                 使用暴力手段.
                    因此,我们可定义抢劫罪和抢夺罪的有效区分因素为该案件是否“以暴力为手段”.以此方法类推,我们分别
                 定义其他几类案件的辅助句子.
                    为了验证本文所提方法对低频和易混淆罪名预测性能的提升,我们分别在 3 个不同规模的中国刑事案件
                 公共数据集中进行实验.实验结果表明:与其他基线模型相比,本文模型在 3 个数据集上均取得了最显著的效果,
                 评估指标均优于基线模型.与引入罪名区分属性解决低频和易混淆罪名预测模型(当前低频和易混淆罪名预测
                 性能最佳模型)相比,本文模型在 3 个数据集上宏观 F1 值最大提升 13.2%,准确率最大提升 4.5%.值得一提的是:
                 本文模型在低频罪名预测宏观 F1 值提升 4.3%,易混淆罪名预测宏观 F1 值提升 8.2%.
   163   164   165   166   167   168   169   170   171   172   173