Page 44 - 《软件学报》2020年第12期
P. 44

3710                                Journal of Software  软件学报 Vol.31, No.12, December 2020

                      Table 5    Recall rate under different topic numbers and thresholds on Foursquare
                             表 5   在 Foursquare 数据集上不同主题数与阈值下的召回率
                       Topic
                    α          10       20      30       40      50       60      70
                      0.80    0.034 5   0.032 4   0.037 2   0.037 9   0.038 1   0.038   0.037 6
                      0.825   0.037 8   0.038 2   0.038 1   0.038 8   0.038 9   0.038 8   0.038 8
                      0.85    0.037 7   0.038 4   0.038 6   0.038 8   0.038 8   0.038 7   0.038 8
                      0.875   0.037 8   0.038   0.038 3   0.038 7   0.038 7   0.038 8   0.038 7
                      0.90    0.035 5   0.035 3   0.035 7   0.035 9   0.036   0.036   0.035 8

             从实验的结果上,我们可以得到以下结论.
             1.   当主题数 Topic 一定时,模型的精确率与召回率并不会随着阈值α的增大而一直增大,它们呈现出一种
                 先增加后减少的趋势.当阈值较小时,对 POI 的语义特征筛选效果较差,不能够有效地区分出存在关联
                 的 POI;而当阈值较大时,筛选条件变得苛刻,此时相关联的 POI 数量会变得稀少,这也就直接导致了
                 POI-POI 图的稀疏性变大,进而影响了模型的推荐性能;
             2.   当阈值α一定时,模型的精确率与召回率会随着主题数 Topic 的增大同样呈现出一种先增加后减少的
                 趋势.主题数 Topic 代表着 POI 语义特征向量的维度.就向量性质而言,随着维度的增加,其所能表示的
                 信息就越丰富,但考虑到在模型中的实际应用场景,模型的推荐性能并未随着主题数 Topic 的增加而
                 不断增大.这是由于对于单个用户而言,其评论集中所包含的单词量是有限的.在使用 LDA 模型挖掘
                 语义特征向量时,如果主题数 Topic 设置得太大,那么一个单词可能会在多个主题维度中占据较大比
                 重,则此时的特征向量就不能准确地反映用户或者 POI 的语义特征,进而会影响到 POI-POI 图的构建
                 以及用户偏好特征的获取,最终影响到推荐模型的性能;
             3.   从整体的实验结果上来看,在 Yelp 数据集上,当阈值α取 0.825、主题数 Topic 取 40 时,模型能取得一
                 组较优的结果;在 Foursquare 数据集上,当阈值α取 0.825、主题数 Topic 取 50 时,模型能取得一组较优
                 的结果.考虑到模型的推荐性能以及计算开销等因素,在保证模型取得较好效果的情况下,还要尽量
                 减小模型的计算开销,故我们将α设置为 0.825,主题数 Topic 设置为 40.将这一组参数设定为最优的参
                 数取值.
             (2)  空间向量维度的设定
             空间向量维度 d 的设定,在一定程度上也会影响到嵌入向量对数据特征的表示能力,即不同维度的嵌入向
         量对数据特征描述的精确程度不同.从直观上说,空间维度越大,所表示的数据特征越精确.但这是人的直观感
         觉,并不意味着维度值越大,模型的推荐性能越强.
             为了确定一种最优的维度设置值,我们测试了在不同空间向量维度下模型的推荐性能,其实验结果如图 6
         和图 7 所示.















                          Fig.6    Precision rate and recall rate under different dimensions on Yelp
                               图 6   在 Yelp 数据集上不同维度下的精确率和召回率
   39   40   41   42   43   44   45   46   47   48   49