Page 173 - 《软件学报》2021年第10期

P. 173

郭军军等:融入案件辅助句的低频和易混淆罪名预测 3145

e  max ( )s   T 
col 
p  softmax ()e   T 
 (4)
lk  p K    2d 
t :t

LK  Tiled T ()lk   2dT 

其中,max col 表示取 S 中每列的最大值,Tiled T 表示 lk 沿着列方向平铺 T 次.
最终,我们得到案情描述和案件辅助句的双向互注意力向量 KL 和 LK.通过 Cat 函数计算 K(案情描述表征
向量)、KL 和 LK 得矩阵 M,M 中每个列向量可以视为具有案件辅助句感知的案情描述表征.如公式(5):
M  :t Cat (K KL LK  :t , :t , :t )  d M

Cat (, , )k kl lk  ( ; ,k kl k  kl ;k  lk )  8dT (5)
d M  8d
其中,M :t 表示第 t 个列向量,与第 t 个案情描述词相对应;k 与 K 的列向量对应;LK 表示 L 中某一列向量与 K 的
注意力向量;KL 表示 K 中某一列向量与 L 的注意力向量(K 和 L 与第 2.1.2 节相对应);表示矩阵相乘.

2.3 具有案件辅助句指导的案情描述上下文特征提取
2.3.1 案情描述上下文特征提取
该网络层采用双层的 Bi-GRU 作为嵌入机制,主要是为了获取具有案件辅助句感知的案情描述向量表征 M
在时序上的上下文依赖关系.这与之前的上下文嵌入网络层不同,前者获取具有案件辅助句感知的案情描述上
下文语义依赖特征,后者独立获取案情描述和案件辅助句上下文语义特征.我们把 Bi-GRU 两个方向的输出进
行拼接,输入到下一层 Bi-GRU 后得到矩阵 N,N 中每列向量表示具有案件辅助句感知的案情描述上下文依赖特
征表征.如公式(6):
N=BiGRU(M) 2dT (6)
2.3.2 案情描述显著特征提取
这一部分主要借鉴残差网络的思想,把具有案件辅助句感知的案情描述特征表征 M 与案情描述上下文依
赖特征表征 N 进行拼接后得到 G,然后采用池化操作提取 G 中的显著特征 H,如公式(7):
G  (M ; )N   10dT
(7)
H  pooling ()G   10d
其中,(;)表示向量在行上的拼接,pooling 采用最大池化.
2.4 罪名预测输出
该网络层是根据犯罪事实预测出某一个案件的最终罪名.主要是把前网络层提取的显著特征 H 通过
softmax 函数,以获取预测结果的概率分布,如公式(9):
P=softmax(W (P) H) (8)
其中,P 表示罪名预测结果的概率分布,W (P) 是可训练的权重向量.
3 罪名预测实验

为了证明本文所提方法在罪名预测任务上性能的提升,尤其是低频罪名和易混淆罪名预测准确率的提升,
我们分别在 3 个不同规模的中国刑事案件公共数据集上进行实验,并结合本文模型做了两类对比实验:一类是
与其他基线模型的性能对比实验,以验证该模型的有效性;另一类是本文模型的消融测试实验,以验证该模型的
合理性.此外,还分别验证本文模型对低频和易混淆罪名预测的性能提升,以及双向互注意力机制可视化实验.

3.1 数据集
本文使用的数据集是 Hu 等人 [15] 2018 年公开的中国刑事案件公共数据集.该数据集共包含 149 类罪名,40
万个案例,并且只包含一项指控.原作者将其随机分为 3 个不同规模的数据集,分别包含 7 万、20 万和 38 万案

168 169 170 171 172 173 174 175 176 177 178