Page 84 - 《软件学报》2021年第11期
P. 84

3410                                Journal of Software  软件学报 Vol.32, No.11, November 2021

                        行词量化,一个句子经过词向量化后,表示为公式(4).
                                                              G
                                                            G
                                                             ,
                                                assess =  i  w =  G i  {w w 2 i  ,...,w G  ik }      (4)
                                                             1 i
                             G                       G
                         其中, w 是对 w i 向量化的后得到的, w 对应 w ij 的向量化.
                              i
                                                      ij
                    (3)  分数映射.对每一条评论,SnowNLP 的输出为该文本的情感倾向为正面的概率.经过多次实验后,将概
                        率与得分建立出映射表,见表 2.其中,p 为概率区间,p⊆[0,1],1≤sa≤5.采用直接映射的方法,经过统计
                        划分出 1/m 个概率区间,以确保输出落在每个区间内的机率相等.
                                        Table 2    Probability and score correspondence table
                                                  表 2   概率与分数对应表
                                           正面概率 p       p 1    p 2    ...    p m
                                          评价得分 sa       sa 1   sa 2   ...    sa m

                    一般来说,大部分评级系统共有 5 级,粒度通常较大.表 3 所示的是一种常见的评级系统,在此列出其对应的
                 评级得分,计算出用户对业务员的评价对应得分后,与用户对业务员的评级打分按公式(5)加权计算出综合得分,
                 作为用户对业务员的满意度预测值,如公式(5)所示.
                                                    su i =α⋅sa i +(1−α)⋅sr i                         (5)
                                          Table 3    Rating and score correspondence table
                                                  表 3   评级与分数对应表
                                     用户评级 r     很满意     满意     一般     不满意      很不满意
                                    评级得分 sr       5      4      3       2        1

                    算法 1 展示了计算用户对业务员的综合满意度的伪代码.
                    算法 1.  用户满意度算法.
                    输入:评论数组 assess,权值α,业务员集合 V.
                    输出:综合满意度列表 su.
                    1.   Begin
                    2.      For i←1 to V.length
                    3.         For j←1 to assess i .length do
                    4.            w ij ←对 assess ij 进行分词;  //切分词
                    5.         G ij w ← 向量化 w ij ;   //词向量化

                    6.         ij p ←  G ij w ;  //词向量为正面的概率

                    7.            sa ij ←p ij ;  //概率映射为评价得分
                    8.            sr ij ←r ij ;  //评级映射为评级得分
                    9.        End for
                    10.    End for
                    11.    For i←1 to V.length do
                                            )
                    12.        sa ←  mean (∑ |assess  | i  sa ;
                              i       j    ij
                                           )∑
                    13.        sr ←  mean ( i  |assess  | i  sr ;
                                          ij
                                      j
                    14.        su i =α⋅sa i +(1−α)⋅sr i ;
                    15.    End for
                    16.  End

                 3.2   信息空间的服务内容匹配度

                    从信息空间的角度出发,关注任务与服务内容的匹配度,着重分析任务与业务员服务内容的匹配度.对于所
   79   80   81   82   83   84   85   86   87   88   89