Page 50 - 《软件学报》2020年第11期
P. 50
3366 Journal of Software 软件学报 Vol.31, No.11, November 2020
用市场生态中的丰富数据中选取可能影响用户接受度的特征,建立用户接受度的预测模型以验证用户接受度
指标的可预测性,并讨论在不同场景中可能为开发者提供的指导.
本文的主要贡献在于:
1. 针对现有用户接受度指标较为片面和主观的问题,提出数据驱动的用户接受度建模方法,即从应用市
场中大规模、多维度的真实用户数据出发,从评价数据、操作数据和交互行为数据中提取具体的用
户接受度指标,构造了一个相对综合和全面的用户接受度模型.
2. 选取应用开发不同阶段的典型问题,结合大规模的应用市场数据集,介绍在具体问题中提取用户接受
度指标的方法,并结合具体指标选取对应不同开发阶段的重要特征,以协同过滤、回归融合、概率模
型等方法建立用户接受度预测模型,验证了用户接受度的可预测性.
1 相关工作
用户对移动应用的接受度可以通过用户的评分、评论、管理操作、交互行为等数据体现.现有工作主要将
应用评分与评论作为主要的评价指标来源,而对用户行为的研究则多停留于描述性分析层面,即,通过统计检
验、可视化等方式试图揭示用户行为中的规律,但未从中提取出度量指标以用于进一步的研究.本节介绍相关
工作.
1.1 用户评分与评论
在应用市场中,用户可以通过打分、评论机制反馈应用质量和使用感受.本文将评分与评论统称为用户评
价.一般地,对于每个应用,应用市场列出不同分数的人数以及加权平均分,同时以一定的规则显示评论,每条评
论与对应的分数绑定.相应地,开发者可以对评论进行回复.
以用户评价作为应用接受度的度量指标,目前较常见的做法是结合评分从评论文本中获取有效信息 [5,11] ,
在改进应用后再以评分为指导分析改进的效果.然而,用户评价在数据代表性方面存在着局限性:一方面,虽然
部分应用市场支持用户对应用的某个版本进行评分,但展现出来的通常是总评分,即用户对所有历史版本的整
体评价,这使得研究中无法将评分与版本进行准确对应;另一方面,用户发表评论的倾向并不相同 [12] ,参与评分
的用户对于整体来说较为稀疏 [13] 且存在“幸存者偏差”.进一步地,由于应用市场可能覆盖多个国家的用户,用户
评论中涉及不同的语言,研究者通常选取自己相对了解的某种语言进行分析.例如,由于英语的自然语言处理技
术相对成熟,许多研究者专注于分析英文评论.一些第三方分析机构(如 App Annie)提供对不同语言评论的翻译
服务,但翻译质量也受到机器翻译技术的影响.可见,评价机制本身的特性使得可获取的用户样本不能很好地代
表整体用户,现有研究方法的局限性则可能进一步加剧这一问题.
研究用户评论通常需要运用自然语言处理技术进行文本处理,而评论文本本身的特性也为研究带来了挑
战:首先,与网页、书籍等传统文本形式相比,应用评论基本属于短文本 [13,14] ,而针对短文本的自然语言处理技术
依然有很大的提升空间;其次,包含这些短文本在内的用户评论所包含的信息量整体较低,例如“好”“不错”“不
好”等,只有小部分用户评论包含可以帮助开发者提升应用的有效信息 [15] ;再次,应用市场中存在一定比例的垃
圾评论,其内容不能代表用户的真实想法,甚至与应用本身无关.其中,部分负面评论可能是出自竞争对手,目的
是对应用声誉产生负面影响;部分好评则可能来自“地下”推广服务 [16] ,以诱导用户下载应用.现有研究往往对评
论文本进行预处理,过滤垃圾评论和无效信息,以提高分析的准确性和有效性.实际上,预处理的效果也极大依
赖于自然语言处理技术.
1.2 用户操作与交互
在用户主动提交的评价信息之外,用户在操作应用过程中产生的数据(包括应用的下载、卸载等)、在应用
中的行为轨迹以及随之产生的衍生数据(例如网络流量)等,能够更为客观地体现用户对应用的接受度.应用市
场的公开数据通常只包括应用下载量,因此,通过用户操作与交互行为理解用户接受度,主要依赖于所能获取的
相关数据.