Page 46 - 《软件学报》2020年第12期
P. 46
3712 Journal of Software 软件学报 Vol.31, No.12, December 2020
果上还是要优于只是考虑地理因素的 GeoMF 模型.而由于在 GeoMF 和 RankGeoFM 没有考虑到诸如时间因素
和语义因素的影响,所以它们的推荐性能要低于之前的 3 种模型.这也从侧面说明:在数据集里包含的属性信息
足够丰富的情况下,比起只考虑单因素建模,引入多因素建模的方法所展现出的推荐性能要更优越.
从 MCAGE 模型在不同的数据集上的表现来看,它在 Yelp 数据集上能发挥出更好的相对性能(同其他模型
相比).其原因在于:Yelp 数据集中包含用户对 POI 的评分记录,而评分能够直接反映出用户对 POI 的偏爱程度,
结合评分与语义信息能够更好地对用户偏好进行建模.但在 Foursquare 数据集中没有用户评分数据,导致对用
户偏好刻画得不够准确.这也表明,融合用户评分与语义特征的偏好获取方法能够进一步提升模型的推荐性能.
Fig.8 Precision rate and recall rate of different models on Yelp
图 8 在 Ylep 数据集上不同模型的精确率和召回率
Fig.9 Precision rate and recall rate of different models on Foursquare
图 9 在 Foursquare 数据集上,不同模型的精确率和召回率
3.4.3 可解释性实验
语义信息特征挖掘的精确与否,将会直接影响到模型的推荐性能.如果从用户评论中所提取的语义特征信
息不能与 POI 的分类信息相匹配,那么就说明用这种方式去计算 POI 的语义特征是不合理的,进而导致推荐的
结果无法得到合理的解释.在此实验模块,我们随机抽取了博物馆、咖啡厅、酒店和餐馆等几种类别的下的 POI,
采样出的 POI 编号与属性信息见表 6.
Table 6 POI’s category information
表 6 POI 的类别信息
POI 编号 类别信息
393 Museums, Arts & Entertainment
1888 Food, Coffee & Tea
2772 Nightlife, Hotels & Travel, Hotels
4396 Wine Bars, Nightlife, Restaurants
然后,我们用主题模型计算它们的主题特征的分布情况,统计结果如图 10 所示.其中,横坐标代表主题编号,
纵坐标表示目标主题所对应的频率.由统计结果可以看出,频率最高的几个主题编号分别为 3,11,29,33 和 36.最
后,我们通过收集这些主题中频率最高的 5 个单词,其统计结果见表 7.
观察编号为 393 的 POI 的主题特征分布图,发现编号为 36 的主题所占频率较高,而该主题中频率最高的前