Page 84 - 《软件学报》2021年第11期
P. 84
3410 Journal of Software 软件学报 Vol.32, No.11, November 2021
行词量化,一个句子经过词向量化后,表示为公式(4).
G
G
,
assess = i w = G i {w w 2 i ,...,w G ik } (4)
1 i
G G
其中, w 是对 w i 向量化的后得到的, w 对应 w ij 的向量化.
i
ij
(3) 分数映射.对每一条评论,SnowNLP 的输出为该文本的情感倾向为正面的概率.经过多次实验后,将概
率与得分建立出映射表,见表 2.其中,p 为概率区间,p⊆[0,1],1≤sa≤5.采用直接映射的方法,经过统计
划分出 1/m 个概率区间,以确保输出落在每个区间内的机率相等.
Table 2 Probability and score correspondence table
表 2 概率与分数对应表
正面概率 p p 1 p 2 ... p m
评价得分 sa sa 1 sa 2 ... sa m
一般来说,大部分评级系统共有 5 级,粒度通常较大.表 3 所示的是一种常见的评级系统,在此列出其对应的
评级得分,计算出用户对业务员的评价对应得分后,与用户对业务员的评级打分按公式(5)加权计算出综合得分,
作为用户对业务员的满意度预测值,如公式(5)所示.
su i =α⋅sa i +(1−α)⋅sr i (5)
Table 3 Rating and score correspondence table
表 3 评级与分数对应表
用户评级 r 很满意 满意 一般 不满意 很不满意
评级得分 sr 5 4 3 2 1
算法 1 展示了计算用户对业务员的综合满意度的伪代码.
算法 1. 用户满意度算法.
输入:评论数组 assess,权值α,业务员集合 V.
输出:综合满意度列表 su.
1. Begin
2. For i←1 to V.length
3. For j←1 to assess i .length do
4. w ij ←对 assess ij 进行分词; //切分词
5. G ij w ← 向量化 w ij ; //词向量化
6. ij p ← G ij w ; //词向量为正面的概率
7. sa ij ←p ij ; //概率映射为评价得分
8. sr ij ←r ij ; //评级映射为评级得分
9. End for
10. End for
11. For i←1 to V.length do
)
12. sa ← mean (∑ |assess | i sa ;
i j ij
)∑
13. sr ← mean ( i |assess | i sr ;
ij
j
14. su i =α⋅sa i +(1−α)⋅sr i ;
15. End for
16. End
3.2 信息空间的服务内容匹配度
从信息空间的角度出发,关注任务与服务内容的匹配度,着重分析任务与业务员服务内容的匹配度.对于所