Page 136 - 《软件学报》2021年第10期

P. 136

3108 Journal of Software 软件学报 Vol.32, No.10, October 2021

其中,s i (i=1,2,…,n)为该样本在第 i 维上的划分编码值,s i =(s i(j1) ,s ij ),s i(j1) 和 s ij 分别为上下界,且满足 j[0,m i ],
[9]
s i0 =0, s  1,s  s  s  s , m i 为第 i 维划分的邻域数 .
im i 0 i ( i j 1) ij im i
免疫检测方法主要基于 NSA,其大多模拟生物免疫中的相关细胞耐受及成熟过程来区分自体与非自体元
[9]
素,其核心是亲和力计算与匹配规则设计 .在邻域形态空间下,NSA 的亲和力计算如下.
(1) 邻域样本间计算
T
T
设 X[s x ,M,otherAttributes] 和 Y[s y ,M,otherAttributes] 为待匹配邻域样本,s 为原始邻域样本:s x [x 1 ,x 2 ,…,x n ] T
T
T
和 s y [y 1 ,y 2 ,…,y n ] ,M=[m, 1 , 2 ,…, n ] 为匹配阈值向量,m 为总匹配度,otherAttributes 为活跃度、生命期、匹配阈
值等其他必要属性, i 为该类别权重,其邻域匹配度 m 为
n
m    i (2)
i
i 1
其中,
n
 i   i (x   i y i ) (3)
i 1
计算方法是:属性匹配以改进实值 Manhattan 距离(Minkowski 距离特例)为重合度匹配进行,类别匹配以邻
[9]
域加权二进制 Hamming 匹配统计进行,其中, i 为属性权重 .
(2) 邻域与待检测样本(实值表示)间计算
T
T
设 X[s x ,M,otherAttributes] 和 Y[y 1 ,y 2 ,...,y n ] 为待匹配样本,m 和 i 同上,其中,
  0, y  (x ( i j 1) ,x ij )
i
x  i y  i  (4)
  1, y  (x ( i j 1) ,x ij )
i
该算法相对于传统的实值否定选择算法有以下优势.
(1) 邻域亲和力计算方法令每维属性独立进行匹配,然后综合判定,削弱数据属性间的耦合关系,其时间
复杂度不会随维数增加而变大,可解决“维数灾难”问题,从根本上突破了维度限制,解放了属性维度限
制,不用进行降维即可高效计算;
(2) 基于此的检测方法突出单维属性的独立作用,可保证更精确的检测判断,加速问题求解速度;
(3) 邻域形态空间以集合论为数学基础,基于离散拓扑理论进行建模,将实值样本归为集合形式表示,在
极大地缩小样本规模的同时,也有效解决了实值样本的高重叠问题,并基于邻域样本与实值样本的计
[9]
算方法,可高效地进行异常检测,从而使人工免疫更好地应对更加复杂的问题域 .
2.2 多源邻域免疫检测器生成算法
本文算法以基于多源邻域否定选择算法(multi-sources NNSA,简称 MSNNSA)为核心来实现候选检测器的
构造、耐受和择优,从而获得成熟的检测器集.其中,otherAttributes 主要包括生命期 weight(初始值设为 0,并结合
基于匹配计数的度量值进行动态调整)和构造方式 construction(包括随机、混沌映射、遗传变异这 3 种方式,
采用轮盘赌方式进行选择),算法直到非自体空间的覆盖率达到期望值或者检测器数量达到最大值时结束,然后
[9]
用生成的检测器进行异常检测 ,其基本流程如图 5 所示.
算法需对数据集进行标准化处理:
x  min( )i
x  i (12)
i
max( ) min( )i  i
其中,max(i)和 min(i)分别表示该属性的最大值与最小值.
具体而言,算法的伪代码实现如下.
输入:邻域划分步长 step;
成熟检测器生成最大数量 N d ;
成熟检测器数量 n;
亲和力匹配阈值;

131 132 133 134 135 136 137 138 139 140 141