Page 173 - 《软件学报》2021年第10期
P. 173

郭军军  等:融入案件辅助句的低频和易混淆罪名预测                                                       3145


                                                  e   max ( )s    T  
                                                        col        
                                                  p   softmax ()e    T  
                                                                                                     (4)
                                                  lk   p K     2d  
                                                        t  :t
                                                                  
                                                  LK   Tiled T  ()lk    2dT 
                                                                   
                 其中,max col 表示取 S 中每列的最大值,Tiled T 表示 lk 沿着列方向平铺 T 次.
                    最终,我们得到案情描述和案件辅助句的双向互注意力向量 KL 和 LK.通过 Cat 函数计算 K(案情描述表征
                 向量)、KL 和 LK 得矩阵 M,M 中每个列向量可以视为具有案件辅助句感知的案情描述表征.如公式(5):
                                            M   :t  Cat (K KL LK   :t  ,  :t ,  :t )  d M
                                                                         
                                            Cat (, , )k kl lk   ( ; ,k kl k   kl ;k   lk )    8dT  (5)
                                            d M    8d
                 其中,M :t 表示第 t 个列向量,与第 t 个案情描述词相对应;k 与 K 的列向量对应;LK 表示 L 中某一列向量与 K 的
                 注意力向量;KL 表示 K 中某一列向量与 L 的注意力向量(K 和 L 与第 2.1.2 节相对应);表示矩阵相乘.

                 2.3   具有案件辅助句指导的案情描述上下文特征提取
                 2.3.1  案情描述上下文特征提取
                    该网络层采用双层的 Bi-GRU 作为嵌入机制,主要是为了获取具有案件辅助句感知的案情描述向量表征 M
                 在时序上的上下文依赖关系.这与之前的上下文嵌入网络层不同,前者获取具有案件辅助句感知的案情描述上
                 下文语义依赖特征,后者独立获取案情描述和案件辅助句上下文语义特征.我们把 Bi-GRU 两个方向的输出进
                 行拼接,输入到下一层 Bi-GRU 后得到矩阵 N,N 中每列向量表示具有案件辅助句感知的案情描述上下文依赖特
                 征表征.如公式(6):
                                                   N=BiGRU(M) 2dT                                  (6)
                 2.3.2  案情描述显著特征提取
                    这一部分主要借鉴残差网络的思想,把具有案件辅助句感知的案情描述特征表征 M 与案情描述上下文依
                 赖特征表征 N 进行拼接后得到 G,然后采用池化操作提取 G 中的显著特征 H,如公式(7):
                                                   G   (M ; )N    10dT
                                                                                                      (7)
                                                   H   pooling ()G    10d
                 其中,(;)表示向量在行上的拼接,pooling 采用最大池化.
                 2.4   罪名预测输出
                    该网络层是根据犯罪事实预测出某一个案件的最终罪名.主要是把前网络层提取的显著特征 H 通过
                 softmax 函数,以获取预测结果的概率分布,如公式(9):
                                                    P=softmax(W (P) H)                                (8)
                 其中,P 表示罪名预测结果的概率分布,W (P) 是可训练的权重向量.
                 3    罪名预测实验

                    为了证明本文所提方法在罪名预测任务上性能的提升,尤其是低频罪名和易混淆罪名预测准确率的提升,
                 我们分别在 3 个不同规模的中国刑事案件公共数据集上进行实验,并结合本文模型做了两类对比实验:一类是
                 与其他基线模型的性能对比实验,以验证该模型的有效性;另一类是本文模型的消融测试实验,以验证该模型的
                 合理性.此外,还分别验证本文模型对低频和易混淆罪名预测的性能提升,以及双向互注意力机制可视化实验.

                 3.1   数据集
                    本文使用的数据集是 Hu 等人         [15] 2018 年公开的中国刑事案件公共数据集.该数据集共包含 149 类罪名,40
                 万个案例,并且只包含一项指控.原作者将其随机分为 3 个不同规模的数据集,分别包含 7 万、20 万和 38 万案
   168   169   170   171   172   173   174   175   176   177   178