Page 38 - 《软件学报》2020年第12期
P. 38
3704 Journal of Software 软件学报 Vol.31, No.12, December 2020
POI_3
POI_1
POI_2 关联
不关联
POI_4
POI_1 地区_1 POI_1 时间段_1
POI_2 地区_2 POI_2 时间段_2
POI_3 地区_3 POI_3 时间段_3
... ... ... ...
Fig.2 Structure of the graph
图 2 图的结构
2.2 图的定义
定义 1(POI-POI 图). 设 G VV =(V∪V,ε vv )为 POI-POI 图,其中,V 为 POI 的集合,ε vv 是 POI 间边的集合.
在给定的评论集 D review 中,对每个 POI v 都提取出对应的文本集 w v ,然后使用 LDA 主题模型的方法计算其
主题特征向量 w ,并使用余弦距离公式来计算各个 POI 的主题特征向量之间的相似度.若 v i 和 v j 的主题特征向
v
量的余弦相似度大于阈值α,则将 v i 和 v j 连上边,且将这条边的权重置为 1.具体做法如下.
首先统计全部 POI 的评论信息,建立一个语料库;然后将每个用户的评论看作一篇文档,同时也将一个 POI
的所有评论看成一篇文档.根据文献[7]所提出的方法,计算出每篇文档主题特征分布向量,即每个用户的主题特
征向量 w 和每个 POI 的主题特征向量 w .
u
v
在计算得到 POI 的主题特征向量 w 后,为了能够表示 POI 与 POI 之间的关联关系,我们使用余弦公式计算
v
两个 POI 的主题特征向量的空间距离,即使用余弦距离来表示 POI 之间的相似程度.最后,通过设置阈值α来控
制相似度的划分标准.这样就可以将 POI 间的相似关系保存在 POI-POI 图中.
定义 2(POI-地区图). 设 G VR =(V∪R,ε vr )为 POI-地区图,其中,V 为 POI 的集合,R 为地区的集合.根据 POI v
的地理信息(数据集中是以经纬度的形式表达的),找到与之相对应的地区 r,将 v 与 r 连上边,并将这条边的权重
置为 1.
POI-地区图用于处理 POI 与地理因素之间的关系.考虑的移动推荐系统的应用场景,当目标用户给出当前
地理位置时,则与之相邻地区的 POI 被推荐的几率就大一些.如果推荐的 POI 与目标用户当前位置相隔太远,那
么就会由于不切实际的推荐而失去系统的实际意义.为此,我们利用经纬度计算了用户访问记录中相邻的两个
POI 之间的距离偏移量及所占比例,其统计结果如图 3 所示.其中:纵坐标代表所占比例;横坐标代表距离偏移量,
其中一个单位刻度为 5km.从图 3 可以看出:用户的活动范围是有限的,即受到地理因素的制约.所以在为用户提
供移动推荐服务时,与用户当前位置相近的 POI 点被推荐的几率会更大.
在构建 POI-地区图时,我们按照行政区对城市进行划分,将城市表示成若干个地区组成的集合;随后,根据
POI 的地理位置信息为其匹配相应的地区,并将这种地理关系保存于 POI-地区图中.
定义 3(POI-时间段图). 设 G VT (V∪T,ε vt )为 POI-时间段图,其中,V 为 POI 的集合,T 为时间段的集合.根据用
户的签到集合,若一个 POI v 在一个时间段 t 内被访问,则将 v 与 t 连上边,并将这条边的权重设置为时间段 t 内
的访问频率(v 在时间段 t 内被访问的次数与 v 被访问总次数的比值).