Page 132 - 《中国电力》2026年第3期
P. 132
2026 年 第 59 卷
捕捉高维时序特征,特别是负荷数据特有的周期 有效应用于聚类算法,无需显式计算高维映射,
性特性,导致原始特征空间聚类效果欠佳。 从而降低计算复杂度。
针对上述存在的不足之处,本文提出将 Kernel- 在 聚 类 计 算 过 程 中 可 隐 式 处 理 特 征 映 射 关
Load curve-ISODATA 聚类算法用于电力负荷识别领 系,仅需利用核函数即可完成计算。为了提升计
域,以下以 K-L-ISODATA 简称,该算法将 ISODATA 算效率,可预先计算样本集中所有样本对的核函
算 法 引 入 电 力 负 荷 曲 线 聚 类 领 域 并 进 行 双 重 优 数值,并存储为核矩阵,后续直接查表调用。核
化,即对初始聚类中心的选取进行优化以及采用 函数的选择直接影响特征空间的映射特性,进而
核方法来获取负荷曲线的高维特征,使聚类算法 导致不同的聚类效果,常用的核函数包括:线性
效果得到进一步提升。 核函数、多项式核函数和高斯核函数。本文在负
针对初始聚类中心随机选择的问题,本文提 荷曲线聚类时选取高斯核函数,原因如下。
出改进方案:首个聚类中心仍随机选取,后续中 1)非线性拟合能力:负荷曲线通常具有复杂
心选择时采用距离加权策略。具体而言,当已确 的 时 间 序 列 模 式 , 如 峰 值 、 周 期 波 动 、 非 线 性
定 n 个初始中心(0<n<k)时,第 n+1 个中心将 趋 势 , 高 斯 核 通 过 非 线 性 映 射 能 更 好 捕 捉 这 些
优先选择与现有中心距离较远的数据点,通过概 特征。
率加权实现这一优化目标。该优化方法的核心在 2)局部敏感性:基于指数衰减的相似度计算
于最大化初始聚类中心的间距:若初始中心过于 能有效识别局部相似性,如形状相似的负荷片段。
接近属同一个簇,将导致需要多次迭代才能正确 3)参数鲁棒性:仅需调节核宽度,即可平衡
分配;反之,当初始中心分布较远属不同簇,可 聚类粒度。
提升算法收敛速度并改善最终聚类质量。 负荷曲线聚类具体流程如图 2 所示。
针对负荷曲线在原始空间使用欧氏距离度量
输入负荷数据,
效果不佳的问题,可采用核方法进行优化。该方 n为样本各数
法通过非线性变换将负荷曲线映射至高维特征空
补全数据
间,从而更好地捕捉数据特征,并在变换后的空 并归一化
间中进行聚类分析。非线性映射通过提升数据线
选取相距尽量较远的
性可分性,使聚类算法能够基于负荷曲线的高维 K个样本作为初始聚
类中心
特征实现更精准的样本距离计算,从而优化聚类
取消该簇, 计算负荷曲线到聚类中心
效果。 当前簇数 的距离,并划分到聚类
k=n−1 中心所在簇类
然而,直接定义显式映射函数将低维数据转
换至高维空间存在明显缺陷:不仅需要逐个处理
否 判断簇中参考点是否
数据点的映射转换,还会导致高维空间中的计算 满足最小样本数目?
复杂度急剧上升,同时面临数据稀疏性问题。
是
核函数作为核方法的核心组件,实现了输入
k≤n/2执行
空间 X 到高维空间 H 的非线性映射,定义映射函 判断簇类数是否满足 否 分裂操作;
n/2≤k≤2n? k≥2n执行合
数 ϕ(x)将样本 x 转换为特征向量 h:h= ϕ(x)。当且 并操作
仅当存在二元函数 K(x, z),对于任意 x, z∈X 都满 是
迭代次数为奇数,分裂
足 内 积 关 系 K(x, z)= ϕ(x)ϕ(z), 则 称 K(x, z) 为 核 函 操作;迭代次数为偶数,
合并操作
数。核函数通过隐式计算高维特征空间的内积,
达到最大迭代次数
避免了显式映射过程。核方法通过核函数 K(x, z) 或者收敛
直接计算样本间的相似度,避免了显式映射到高
输出聚类
维空间的复杂计算。在聚类算法中,样本间的相 结果
似度通常用内积或距离衡量,而核函数可以高效 图 2 K-L-ISODATA 算法聚类流程
计算高维空间中的内积或距离。因此,核方法能 Fig. 2 K-L-ISODATA algorithm clustering process
128

