Page 173 - 《软件学报》2021年第10期
P. 173
郭军军 等:融入案件辅助句的低频和易混淆罪名预测 3145
e max ( )s T
col
p softmax ()e T
(4)
lk p K 2d
t :t
LK Tiled T ()lk 2dT
其中,max col 表示取 S 中每列的最大值,Tiled T 表示 lk 沿着列方向平铺 T 次.
最终,我们得到案情描述和案件辅助句的双向互注意力向量 KL 和 LK.通过 Cat 函数计算 K(案情描述表征
向量)、KL 和 LK 得矩阵 M,M 中每个列向量可以视为具有案件辅助句感知的案情描述表征.如公式(5):
M :t Cat (K KL LK :t , :t , :t ) d M
Cat (, , )k kl lk ( ; ,k kl k kl ;k lk ) 8dT (5)
d M 8d
其中,M :t 表示第 t 个列向量,与第 t 个案情描述词相对应;k 与 K 的列向量对应;LK 表示 L 中某一列向量与 K 的
注意力向量;KL 表示 K 中某一列向量与 L 的注意力向量(K 和 L 与第 2.1.2 节相对应);表示矩阵相乘.
2.3 具有案件辅助句指导的案情描述上下文特征提取
2.3.1 案情描述上下文特征提取
该网络层采用双层的 Bi-GRU 作为嵌入机制,主要是为了获取具有案件辅助句感知的案情描述向量表征 M
在时序上的上下文依赖关系.这与之前的上下文嵌入网络层不同,前者获取具有案件辅助句感知的案情描述上
下文语义依赖特征,后者独立获取案情描述和案件辅助句上下文语义特征.我们把 Bi-GRU 两个方向的输出进
行拼接,输入到下一层 Bi-GRU 后得到矩阵 N,N 中每列向量表示具有案件辅助句感知的案情描述上下文依赖特
征表征.如公式(6):
N=BiGRU(M) 2dT (6)
2.3.2 案情描述显著特征提取
这一部分主要借鉴残差网络的思想,把具有案件辅助句感知的案情描述特征表征 M 与案情描述上下文依
赖特征表征 N 进行拼接后得到 G,然后采用池化操作提取 G 中的显著特征 H,如公式(7):
G (M ; )N 10dT
(7)
H pooling ()G 10d
其中,(;)表示向量在行上的拼接,pooling 采用最大池化.
2.4 罪名预测输出
该网络层是根据犯罪事实预测出某一个案件的最终罪名.主要是把前网络层提取的显著特征 H 通过
softmax 函数,以获取预测结果的概率分布,如公式(9):
P=softmax(W (P) H) (8)
其中,P 表示罪名预测结果的概率分布,W (P) 是可训练的权重向量.
3 罪名预测实验
为了证明本文所提方法在罪名预测任务上性能的提升,尤其是低频罪名和易混淆罪名预测准确率的提升,
我们分别在 3 个不同规模的中国刑事案件公共数据集上进行实验,并结合本文模型做了两类对比实验:一类是
与其他基线模型的性能对比实验,以验证该模型的有效性;另一类是本文模型的消融测试实验,以验证该模型的
合理性.此外,还分别验证本文模型对低频和易混淆罪名预测的性能提升,以及双向互注意力机制可视化实验.
3.1 数据集
本文使用的数据集是 Hu 等人 [15] 2018 年公开的中国刑事案件公共数据集.该数据集共包含 149 类罪名,40
万个案例,并且只包含一项指控.原作者将其随机分为 3 个不同规模的数据集,分别包含 7 万、20 万和 38 万案