Page 160 - 《软件学报》2021年第6期
P. 160
1734 Journal of Software 软件学报 Vol.32, No.6, June 2021
behavior to change smoothly and produce sufficient distinction to significantly advance the model accuracy in the scenario of behavior
camouflage anomaly detection.
Key words: behavioral intervention; interactive behavior; identity theft; identity recognition; Petri-net modeling
电子商务的迅速发展,使用户在享受互联网带来的高质量生活品质的同时,也在不断遭遇多种有组织的网
络欺诈行为.根据 CNNIC 数据统计,在 2018 年中,30%以上的网民遭遇了个人信息泄漏,超过 25%的用户遭遇网
上诈骗,23.8%的用户遭遇了病毒或木马攻击,19.2%的用户账号或密码被盗.对互联网行业的企业而言,灰色产
业带来的不仅是对正常业务的干扰,更是真实的经济损失.对于很多初创互联网企业,在开拓市场之初,纷纷推
出了花样繁多的优惠活动,这些优惠在吸引了众多用户改变使用习惯的同时,也成为了灰色产业从业人员的目
[1]
标,大量不法分子利用 作弊软件与作弊硬件,通过虚假身份和模拟的虚假行为欺诈套利.同时,认知一致性理论
[2]
(cognitive consistency)认为:用户的态度和行为总趋于平衡和稳定状态 ,用户的共性特征往往稳定不变且容易
被欺诈者捕获,从而使得欺诈者能够绕过监控规则,获利丰厚,甚至渐渐形成了整套的灰色产业链.而这些产业
因为自身的隐藏性与反侦察性,并不为社会公众所感知.如何有效且准确地验证用户身份,已经成为一个待解决
的问题.
[3]
现有的大部分身份认证技术都是基于用户的账户名和密码 .在短时间内对用户进行身份认证,之后无论
[4]
用户的真实身份是什么,用户所做的一切行为都将被视为合法行为 .然而,欺诈者通过钓鱼网站伪装成银行等
金融服务提供商,骗取用户的电子邮件地址、密码等敏感信息,得以伪装身份进而实施诈骗行为.所以,拥有正确
密码的用户并不意味着他是一个合法的用户.
为了弥补单一的用户名密码的身份认证模式带来的缺陷,近年来,许多学者也倾向于数据特征挖掘和行为
分析方法用于身份识别领域,如对用户 Web 日志采用关联规则挖掘、隐马尔可夫过程、半马尔可夫过程、贝
叶斯网络、神经网络和随机森林等方法进行行为建模和预测.尽管目前很努力地解决用户身份识别问题,但是
依然面临着诸多困难.
(1) 利用机器学习相关模型,需要对训练数据进行标记.然而,由于现实中欺诈行为样本的稀疏性,会存在
样本极度不均衡的情况,使得模型很难充分学习欺诈行为的特征;
(2) 由于用户的年龄、背景和爱好等相对固定,其系统交互行为模式在一定时间内相对稳定.欺诈者利用
这一特性,使用盗取的部分用户行为信息模拟正常使用者的行为,绕过监控规则,从而使得身份识别
模型对此类欺诈行为的误判较高;
(3) 目前,对用户交互行为和浏览行为的 Web 日志数据挖掘研究大多建立在用户对于搜索引擎、网上商
城等具有大量页面浏览记录中提取特征,得到用户的浏览偏好,且研究多用于对网站结构的优化、
Web 预测或推荐系统.但在功能较单一的单个系统中,在用户量较大时出现的多用户共享相似行为模
[5]
式 ,使得身份识别模型的区分性降低;
(4) 如何提取用户交互行为特征构建用户行为画像和用户交互行为异常判断的标准,目前仍然面临诸多
挑战.
针对以上问题,本文提出一种新的身份识别方法.与其他模型相比,本文提出的方法能够很好地缓解上述问
题,并且主要有以下几点优势.
(1) 从用户的角度出发,持续关注用户的 Web 使用日志,构建用户的交互行为画像,能够很好地规避样本
不均衡这一问题;
(2) 考虑了用户之间的差异,提出了行为漂移引导模型,根据每个用户的历史交互行为记录,综合考虑交
互行为的稳定性和偏向性,为每个用户确定各自的行为干预时机,有效避免了复杂性不高且功能单一
的系统中出现多用户共享相似的行为模式问题;
(3) 提出了系统行为集合的定义,并划分为系统关键行为集合和非关键行为集合,采用系统内部触发的方
法,通过在不破坏系统运行逻辑的前提下叠加新的非关键行为流程的方式,非强制性约束用户行为流
程,使得用户行为能够顺应引导机制,从而逐步培养用户产生新的交互行为习惯,与原始交互行为保