Page 55 - 《软件学报》2020年第11期
P. 55

陆璇  等:数据驱动的移动应用用户接受度建模与预测                                                       3371


                 建立预测模型构建接受度指标与不同因素之间的关联,从而为改进开发过程提供指导.因此,本文根据移动应用
                 开发者在开发不同阶段可能面对的典型问题,选取合适的用户接受度指标,通过问题描述、指标提取、指标预
                 测等步骤给出 3 个实例.基于真实数据集,有针对性地进行用户接受度指标的提取,并通过验证用户接受度指标
                 的可预测性,讨论这些指标可能为应用开发带来的改进与帮助.
                 3.1   目标用户群体预测

                 3.1.1    问题描述
                    在应用开发之初,开发者需要对应用的目标用户群体进行分析和理解,从而确定应用的功能定位,并为后续
                 的开发和测试工作提供指导.实际上,在开发测试中遇到的问题很可能与应用的目标用户群体有关.例如,
                 Android 应用开发者通常需要考虑应用在不同 Android 设备上的适配性问题.由于 Android 系统的开源特性,不
                 同的生产厂家生产出大量不同型号的 Android 设备,在操作系统版本、硬件配置、调用接口设计等方面千差万
                 别.根据 Open Signal 的报告,2015 年,市场上已有超过 2.4 万种 Android 设备.在这一背景下,开发者往往需要对
                 不同机型上的适配性问题进行穷举并逐个解决.然而,由于经济、人力、时间等各方面成本的限制,开发者通常
                 无法穷尽列举所有的情况.因此,若能在大量 Android 设备中定位出主要的设备,尽可能多地覆盖目标用户,则能
                 够帮助开发者显著减少开发与测试成本.
                    目前,应用开发者最常用的做法是根据市场情况,选取销量最好的若干种设备用于测试.这一做法存在明显
                 的问题,即不同应用的目标用户群体不一定相同.换言之,销量最好的设备型号不一定能覆盖某个特定应用的主
                 要用户群体.因此在应用上线之前,需要一种更好的方案为移动应用进行主要用户群体的预测.具体而言,对于
                 一个特定应用,需要提前预测出其主要用户所使用的若干种设备型号,从而在开发测试阶段尽可能解决可能遇
                 到的适配性问题.
                 3.1.2    指标选择
                    判断使用某种设备的用户是否属于应用的主要用户群体,其标准亦取决于开发者所关注的用户接受度指
                 标.当选定该指标后,可以通过预测其在不同机型用户中的分布情况来判断不同机型用户对应用的重要程度.在
                 线广告投放策略中,一种常见的理念可供借鉴,即用户在页面中停留的时间越长,其点击广告的概率越大.换言
                 之,不同用户的在线使用时长能够有效衡量其对应用的重要程度.同时,考虑到用户遇到适配性问题的几率可能
                 与其使用时长相关,因此选取在线使用时长作为用户接受度指标.在线使用时长指用户在前台使用该应用且访
                 问互联网的时长,此处联网包括 Wi-Fi 和蜂窝网络.对于应用 A,由设备 D 贡献的在线使用时长定义如下.
                                                Time (D →  ) A =  ∑ Time (d →  i  ) A .
                 其中,D 代表一款特定的机型,d i 代表属于机型 D 的一个具体设备,d i ∈D.
                    为了体现不同机型对在线使用时长的贡献程度,以每款机型所占在线使用总时长的比例作为不同机型重
                 要性的度量指标,简称为“时长比例(time share)”,定义如下.
                                                             Time (D →  ) A
                                                                   j
                                               Time Share (G =            .
                                                          )
                                                            ∑ Time (D →  ) A
                                                         j
                                                                    j
                 其中,Time(D j )为机型 D j 的在线使用时长, ∑   Time (D 是所有机型的在线使用时长(也即所有用户的在线使用时
                                                          )
                                                         j
                 长).D j 的时长比例越高,D j 的用户在此应用中消耗的在线时间越长.这样,不同机型用户群体对应用的接受度通
                 过在线使用时长来度量.据此抽象得到的时长比例,则表示不同用户群体对应用的重要程度.
                 3.1.3    指标预测
                    此处数据集为豌豆荚收集的 238 231 个应用在 2014 年 7 月 1 日~9 月 30 日期间的用户行为数据,覆盖
                 4 775 293 名用户和 16 602 种 Android 设备.在这一数据集中,选用前台 Wi-Fi 联网时长和前台蜂窝网联网时长
                 计算不同应用的用户接受度.初步分析显示:在线使用时长在不同机型上的分布情况具有帕累托分布的特征,即
                 少量机型可以覆盖大量的交互行为数据.如图 2 所示,在游戏类应用 11 538 种机型中,要覆盖使用总时长的 90%,
                 只需要其中至多 4.3%的机型.要覆盖 80%的时长,需要的机型种类的中位数低于 100.这证实了为应用开发者显
   50   51   52   53   54   55   56   57   58   59   60