Page 38 - 《软件学报》2020年第12期
P. 38

3704                                Journal of Software  软件学报 Vol.31, No.12, December 2020

                                                               POI_3

                               POI_1
                                            POI_2                        关联

                                                                        不关联


                                                 POI_4

                             POI_1             地区_1 POI_1            时间段_1

                             POI_2             地区_2 POI_2            时间段_2


                             POI_3            地区_3 POI_3             时间段_3
                                  ...        ...         ...       ...
                                          Fig.2    Structure of the graph
                                               图 2   图的结构

         2.2   图的定义
             定义 1(POI-POI 图).  设  G VV =(V∪V,ε vv )为 POI-POI 图,其中,V 为 POI 的集合,ε vv 是 POI 间边的集合.
             在给定的评论集 D review 中,对每个 POI v 都提取出对应的文本集 w v ,然后使用 LDA 主题模型的方法计算其

         主题特征向量 w ,并使用余弦距离公式来计算各个 POI 的主题特征向量之间的相似度.若 v i 和 v j 的主题特征向
                      v
         量的余弦相似度大于阈值α,则将 v i 和 v j 连上边,且将这条边的权重置为 1.具体做法如下.
             首先统计全部 POI 的评论信息,建立一个语料库;然后将每个用户的评论看作一篇文档,同时也将一个 POI
         的所有评论看成一篇文档.根据文献[7]所提出的方法,计算出每篇文档主题特征分布向量,即每个用户的主题特


         征向量 w 和每个 POI 的主题特征向量 w .
                u
                                         v

             在计算得到 POI 的主题特征向量 w 后,为了能够表示 POI 与 POI 之间的关联关系,我们使用余弦公式计算
                                         v
         两个 POI 的主题特征向量的空间距离,即使用余弦距离来表示 POI 之间的相似程度.最后,通过设置阈值α来控
         制相似度的划分标准.这样就可以将 POI 间的相似关系保存在 POI-POI 图中.
             定义 2(POI-地区图).  设 G VR =(V∪R,ε vr )为 POI-地区图,其中,V 为 POI 的集合,R 为地区的集合.根据 POI  v
         的地理信息(数据集中是以经纬度的形式表达的),找到与之相对应的地区 r,将 v 与 r 连上边,并将这条边的权重
         置为 1.
             POI-地区图用于处理 POI 与地理因素之间的关系.考虑的移动推荐系统的应用场景,当目标用户给出当前
         地理位置时,则与之相邻地区的 POI 被推荐的几率就大一些.如果推荐的 POI 与目标用户当前位置相隔太远,那
         么就会由于不切实际的推荐而失去系统的实际意义.为此,我们利用经纬度计算了用户访问记录中相邻的两个
         POI 之间的距离偏移量及所占比例,其统计结果如图 3 所示.其中:纵坐标代表所占比例;横坐标代表距离偏移量,
         其中一个单位刻度为 5km.从图 3 可以看出:用户的活动范围是有限的,即受到地理因素的制约.所以在为用户提
         供移动推荐服务时,与用户当前位置相近的 POI 点被推荐的几率会更大.
             在构建 POI-地区图时,我们按照行政区对城市进行划分,将城市表示成若干个地区组成的集合;随后,根据
         POI 的地理位置信息为其匹配相应的地区,并将这种地理关系保存于 POI-地区图中.
             定义 3(POI-时间段图).  设 G VT (V∪T,ε vt )为 POI-时间段图,其中,V 为 POI 的集合,T 为时间段的集合.根据用
         户的签到集合,若一个 POI v 在一个时间段 t 内被访问,则将 v 与 t 连上边,并将这条边的权重设置为时间段 t 内
         的访问频率(v 在时间段 t 内被访问的次数与 v 被访问总次数的比值).
   33   34   35   36   37   38   39   40   41   42   43