Page 51 - 《软件学报》2020年第11期
P. 51
陆璇 等:数据驱动的移动应用用户接受度建模与预测 3367
用户操作与交互行为数据的获取来源主要可分为 3 类:一是在目标应用内收集,二是通过第三方应用收集,
三是通过网络流量数据获取.相较而言,对于第一类情况,开发者可以在权限范围内根据需求定制数据类型,包
括用户在应用内的操作路径、点击坐标、操作时间、网络状况等多种粒度的数据,因此,通过该方式可收集的
数据粒度最细.
第 2 类数据来源可进一步分为两种.
• 其一是研究者开发专门的工具收集用户数据.早期相关研究一般针对志愿者进行数据收集 [17−20] ,要求
志愿者安装工具或使用安装了工具的手机,所获数据规模相对较小.后来,一些研究者 [21−25] 将收集工
具通过应用市场发布供用户下载,以获取较大规模的用户数据.
• 其二是借助已有的工具实现对具体数据的获取 [26] .其中,有些收集行为是与该应用本身功能相关的,
如豌豆荚应用市场曾在其历史版本中记录应用的流量使用情况,用于帮助用户检测最耗流量的应用.
第 3 类数据来自网络运营商.目前,绝大多数应用在运行时会联网,通过以太网或蜂窝网与服务器产生数据
交换.通过分析移动网络运营商存储的流量数据,可以推测用户的应用使用情况,以此分析用户使用应用的行为
特性 [27] .但此类数据也存在一定的局限性,不能简单地将其等同于用户行为的记录.由于有些应用有时可在无网
状态下使用,有时会在后台运行时产生网络流量,再加上移动设备所处网络环境较为多样,因此,由某个网络运
营商记录的网络流量数据与用户在设备中的交互行为并非一一对应.若要通过这类数据理解用户的应用操作
与交互行为,需要对数据集进行深入的分析,给出符合限制条件的结论.
总体而言,对用户行为的研究多停留于描述性分析层面,即,通过统计检验、可视化等方式试图揭示用户行
为中的规律,如用户行为的分布特征 [6,28−31] 、用户对应用的使用偏好 [18,20,32] 、不同类型用户的行为差异 [19,33,34]
等.这类描述性分析能够在不同程度上为开发者提供调整与优化的建议,例如,Zhong 等人 [28] 发现,在付费应用
中,便宜的应用相对更为成功,同时,昂贵的专业应用会获得不成比例的高下载量,因此建议开发者要为应用找
[6]
准市场定位.Liu 等人 在研究中发现,某些应用在特定设备上的卸载率明显较高,因此建议开发者关注应用在
这些设备上的适配性问题.然而,由于没有使用具体的应用接受度指标进行进一步的量化分析,此类研究的发现
尚不能为开发者提供更为具体的开发指导.
2 数据驱动的用户接受度建模
如前所述,由于用户评价数据本身的局限性,有必要同时考虑用户的客观行为数据,为移动应用构建综合的
用户接受度模型,从而为开发者提供较为具体的开发与改进指导.移动应用的用户接受度,即用户接受或使用一
个移动应用的程度,可以表示为多个指标的集合:
User Acceptance={u 1 ,u 2 ,…,u n }.
其中,u 1 ,u 2 ,…,u n 表示不同维度的用户接受度指标.本文的用户接受度建模过程,就是从不同数据中抽象出多种
具体指标,构造用户接受度指标集合的过程.基于这一综合的用户接受度模型,在具体研究中,可以根据研究目
标选取不同的指标,以体现用户态度的不同方面,从而为分析软件过程中的具体问题提供指导.需要说明的是:
由于数据维度复杂、研究目标多样,能够提取出的用户接受度指标以及开发者关心的用户接受度指标一时间难
以穷尽.因此,本文并不试图构建出一个完备的用户接受度指标集合,而是指出综合考虑不同维度用户接受度指
标的重要性与必要性,并根据现有应用市场生态中的已知数据给出建模方法和思路.
考虑到应用市场生态中存在大量用户数据,本文采用数据驱动的视角进行用户接受度建模.如前所述,在移
动应用市场中,可能反映出用户接受度的用户数据主要包括评价数据、操作数据和交互行为数据.以下分别基
于这 3 类数据给出建模方法和思路.
2.1 基于评价数据的用户接受度指标
用户评价,指用户显式提供的对应用的评价信息,包括评分和评论,二者通常相互绑定.其中,评分是一种定
量的评价表达方式,较为直观且可直接用于不同应用间的比较;评论则通常以自然语言的形式出现,除了能表达
用户对应用的整体态度外,还能够表达对应用某个具体方面的看法和需求.相比于传统的在软件内部设置评价