Page 44 - 《软件学报》2020年第12期
P. 44
3710 Journal of Software 软件学报 Vol.31, No.12, December 2020
Table 5 Recall rate under different topic numbers and thresholds on Foursquare
表 5 在 Foursquare 数据集上不同主题数与阈值下的召回率
Topic
α 10 20 30 40 50 60 70
0.80 0.034 5 0.032 4 0.037 2 0.037 9 0.038 1 0.038 0.037 6
0.825 0.037 8 0.038 2 0.038 1 0.038 8 0.038 9 0.038 8 0.038 8
0.85 0.037 7 0.038 4 0.038 6 0.038 8 0.038 8 0.038 7 0.038 8
0.875 0.037 8 0.038 0.038 3 0.038 7 0.038 7 0.038 8 0.038 7
0.90 0.035 5 0.035 3 0.035 7 0.035 9 0.036 0.036 0.035 8
从实验的结果上,我们可以得到以下结论.
1. 当主题数 Topic 一定时,模型的精确率与召回率并不会随着阈值α的增大而一直增大,它们呈现出一种
先增加后减少的趋势.当阈值较小时,对 POI 的语义特征筛选效果较差,不能够有效地区分出存在关联
的 POI;而当阈值较大时,筛选条件变得苛刻,此时相关联的 POI 数量会变得稀少,这也就直接导致了
POI-POI 图的稀疏性变大,进而影响了模型的推荐性能;
2. 当阈值α一定时,模型的精确率与召回率会随着主题数 Topic 的增大同样呈现出一种先增加后减少的
趋势.主题数 Topic 代表着 POI 语义特征向量的维度.就向量性质而言,随着维度的增加,其所能表示的
信息就越丰富,但考虑到在模型中的实际应用场景,模型的推荐性能并未随着主题数 Topic 的增加而
不断增大.这是由于对于单个用户而言,其评论集中所包含的单词量是有限的.在使用 LDA 模型挖掘
语义特征向量时,如果主题数 Topic 设置得太大,那么一个单词可能会在多个主题维度中占据较大比
重,则此时的特征向量就不能准确地反映用户或者 POI 的语义特征,进而会影响到 POI-POI 图的构建
以及用户偏好特征的获取,最终影响到推荐模型的性能;
3. 从整体的实验结果上来看,在 Yelp 数据集上,当阈值α取 0.825、主题数 Topic 取 40 时,模型能取得一
组较优的结果;在 Foursquare 数据集上,当阈值α取 0.825、主题数 Topic 取 50 时,模型能取得一组较优
的结果.考虑到模型的推荐性能以及计算开销等因素,在保证模型取得较好效果的情况下,还要尽量
减小模型的计算开销,故我们将α设置为 0.825,主题数 Topic 设置为 40.将这一组参数设定为最优的参
数取值.
(2) 空间向量维度的设定
空间向量维度 d 的设定,在一定程度上也会影响到嵌入向量对数据特征的表示能力,即不同维度的嵌入向
量对数据特征描述的精确程度不同.从直观上说,空间维度越大,所表示的数据特征越精确.但这是人的直观感
觉,并不意味着维度值越大,模型的推荐性能越强.
为了确定一种最优的维度设置值,我们测试了在不同空间向量维度下模型的推荐性能,其实验结果如图 6
和图 7 所示.
Fig.6 Precision rate and recall rate under different dimensions on Yelp
图 6 在 Yelp 数据集上不同维度下的精确率和召回率