Page 389 - 《软件学报》2025年第5期
P. 389
王晨旭 等: 基于半监督和自监督图表示学习的恶意节点检测 2289
encoders, and class-aware imbalance loss functions to solve the problems of data inconsistency and imbalance. Furthermore, to address the
+
limitation of CAMD in detecting malicious nodes with scarce labels, a graph contrastive learning-based method, CAMD , is proposed.
CAMD+ introduces data augmentation, self-supervised graph contrastive learning, and class-aware graph contrastive learning to enable the
model to learn more information from unlabeled data and fully utilize scarce label information. Finally, a large number of experimental
results on real-world datasets verify that the proposed methods outperform all baseline methods and demonstrate good detection
performance in situations with different degrees of label scarcity.
Key words: malicious node detection; graph neural network (GNN); representation learning
随着互联网的发展, 电子商务、社交网络、消费评价网站等平台近年来发展得越来越完善, 成为人们购物、
获取信息、交流、娱乐等方面的重要工具. 然而, 随着这些平台的活跃用户数增多, 一些不法分子从中看到了牟利
的机会. 如电商平台或评价网站中, 恶意用户通过虚假交易刷单, 刷好评等操作误导用户消费其产品; 社交网络平
台中, 恶意用户可以通过注册大量机器人账号以传播垃圾信息, 如非法广告宣传, 炒作等, 从而牟取暴利; 在金融领
域, 如支付宝恶意用户可以通过大量注册账号实现恶意套现 [1] , 对整个金融系统造成了极大的危害. 因此, 准确识
别恶意用户对保障正常用户权益, 维护平台稳定性有着重要作用.
传统基于规则的恶意用户检测方法基于专家知识总结明显的行为信号, 并给予这些信号设计一些规则来进行
欺诈预测. 这些方法虽然简单且存在可解释性, 但是其高度依赖于人们的先验知识, 难以处理不断变化和复杂的模
式. 事实上, 大部分用户间天然存在着丰富的交互关系. 电商平台中, 用户可以与商家或其他用户进行交易, 不同用
户会在同一商品下发布评论; 社交网络中用户间存在好友、共同关注、发布相同的话题等关系; 金融系统中的用
户之间存在朋友、同事、亲戚等社交关系, 用户可能与商家或其他用户进行交易, 用户需要登录一些应用程序才
能实现金融交易等. 所有这些关系都可能有利于解决恶意用户检测问题, 因为恶意用户可以通过改变攻击策略来
使得基于规则或特征的检测方法失效, 但他们之间的关系却没有那么容易改变. 此外, 这些关系也可以为恶意用户
的检测提供更多可挖掘的信息. 近年来, 基于图神经网络的研究越发成熟, 其优异的节点表示学习能力可以为节点
同时编码丰富的特征信息与图结构信息, 将其与恶意用户检测相结合已经成为当前主流的研究方向.
然而, 当前基于图神经网络的恶意用户检测通常需要面临以下几个问题: (1) 随着黑色产业的发展, 恶意用户
存在伪装行为, 如图 1 所示. 图中的虚线表示右侧恶意用户与左侧恶意用户具有相似的邻居, 而右侧恶意用户的特
征对于识别左侧恶意用户至关重要, 但是二者之间互不连通, 从而对基于图神经网络 (GNN) 的识别模型的性能造
成负面影响. 图 1 中的蓝线表示这两个恶意用户之间互为一阶邻居. 恶意用户的伪装行为主要在于利用一些伪装
措施以模仿正常用户, 从而绕过检测系统的探查, 主要有以下两种伪装形式: ① 特征伪装: 恶意用户通过模仿正常
用户的特征及行为, 从而绕过基于特征的检测模型; ② 结构伪装: 恶意用户通常会将自己与正常用户关联在一起,
降低被检测模型鉴定为恶意用户的概率. 恶意用户的伪装行为会导致构建的图数据存在数据不一致问题 [2] , 具体
来说其与图神经网络通过聚合邻域信息来挖掘同一类节点共性的工作原理不一致, 在这种情况下使用图神经网络
会使得编码得到的节点表示向量质量下降, 从而影响检测准确率; (2) 由于恶意用户通常只占所有用户的很小一部
分, 因此恶意用户检测场景的数据常常存在严重的数据不平衡问题; (3) 由于恶意用户过于稀少, 数据中大多是正
常用户, 将一部分欺诈行为贴上“异常”的标签成本非常高, 所以恶意检测任务还存在标签稀缺的问题.
恶意用户
正常用户
伪装行为
图 1 恶意用户伪装行为