Page 53 - 《软件学报》2020年第11期
P. 53
陆璇 等:数据驱动的移动应用用户接受度建模与预测 3369
2.2 基于操作数据的用户接受度指标
操作数据,指记录用户对应用的下载、更新、卸载等管理行为的数据.基于操作行为数据的用户接受度指
标可以来自以下 3 个角度.
1. 对某一操作进行直接计数.
例如,下载量指应用被下载的次数,是一种常见的用户接受度度量指标.应用市场中显示的应用下载量通常
是该应用的历史累积下载量,常以数量级的方式展现.进一步地,基于此类计数结果,可以计算所有用户中不同
用户群体所占的比例,以代表这些用户群体间应用接受度的相对大小.例如,对指定应用,可将不同用户群体所
占下载量的比例定义为“下载比例(download share)”,计算公式为
Downloads ()G
Download Share ()G = i .
∑ Downloads ()G i
i
其中,Downloads(G i )为群体 G i 的下载量, ∑ Downloads ()G 为所有群体的下载量.G i 的下载比例越高,表明相对于
i
其他群体,G i 对该应用下载量的贡献越大.
当需要根据某一指标对不同应用进行排序时,除了绝对数值,有时需要对相关指标进行转换.例如,考虑到
应用市场中应用的下载量分布符合幂率(power law) [37,38] ,在预测任务中,长尾分布不符合某些评价指标的要求,
此时可以用下载排名百分位数(download percentile against rankings,简称 download percentile)表示一个应用在
一组应用的下载量排名中所处的相对位置.具体而言,将一组 n 个应用按下载量从高到低排序,对于应用 i,其排
名为 rank i ,则其下载排名百分位数为
−
n rank
Download Percentile () i = i .
n
在一组应用中,一个应用的下载排名百分位数越高,代表其下载量相对越大.
2. 计算不同操作数量的相对规模.
对于某些指标(例如卸载量)来说,由于不同应用的用户规模不同,在比较不同应用的用户接受度时,不宜使
用其绝对数值.使用卸载率(U-I ratio)这一相对指标可以表示应用卸载量占下载量的比值,其计算公式为
U - I Ratio = number of uninstalls .
number of installs
同理,当一个应用发布新的版本后,可以通过用户的更新率(update ratio)表示进行更新的用户比例.
number of updates
Update Ratio = .
number of installs
3. 在基于数量的指标之外,还可以从用户的操作序列中提取用户接受度指标.
例如,“用户在下载后经多次更新最后卸载”与“下载后很短时间内进行卸载”这两种操作序列可以体现出
不同的用户接受度.从序列中提取指标的方法,亦取决于具体的问题、研究思路与模式定义方法.
当需要考虑不同时间段或不同版本应用的用户接受度变化时,可以在以上 3 类指标的基础上定义新的指
标,例如下载趋势、卸载率变化等.
2.3 基于交互行为数据的用户接受度指标
考虑到用户下载应用后可能将其闲置,用户对应用的管理操作行为也不能完全代表用户的实际使用情况.
因此,相较而言,用户在应用中的交互行为能够更加直接地体现用户对应用的接受度.然而,相对于可直接通过
应用市场公开数据获得的评分、下载量等数据,应用内交互行为数据较难获取,且现有研究基本局限于描述性
分析,未考虑进一步从中提取出指标.由于用户交互行为维度非常多样,更难以将可从中提取的用户接受度指标
一一列举.本节基于基本的交互行为数据类型,给出若干可用于提取具体指标的方向,在后文的实例中,再根据
具体的问题和数据集给出具体指标的定义.
如图 1 所示,用户交互行为的维度非常丰富.基本的交互行为包括应用的启动、运行和退出.当用户启动一
个应用时,表明需要该应用来实现某种需求;而退出此应用,则表明当前需求已完成.应用运行既可以在前台也