Page 132 - 《中国电力》2026年第3期

P. 132

2026 年第 59 卷

捕捉高维时序特征，特别是负荷数据特有的周期有效应用于聚类算法，无需显式计算高维映射，
性特性，导致原始特征空间聚类效果欠佳。从而降低计算复杂度。
针对上述存在的不足之处，本文提出将 Kernel- 在聚类计算过程中可隐式处理特征映射关
Load curve-ISODATA 聚类算法用于电力负荷识别领系，仅需利用核函数即可完成计算。为了提升计
域，以下以 K-L-ISODATA 简称，该算法将 ISODATA 算效率，可预先计算样本集中所有样本对的核函
算法引入电力负荷曲线聚类领域并进行双重优数值，并存储为核矩阵，后续直接查表调用。核
化，即对初始聚类中心的选取进行优化以及采用函数的选择直接影响特征空间的映射特性，进而
核方法来获取负荷曲线的高维特征，使聚类算法导致不同的聚类效果，常用的核函数包括：线性
效果得到进一步提升。核函数、多项式核函数和高斯核函数。本文在负
针对初始聚类中心随机选择的问题，本文提荷曲线聚类时选取高斯核函数，原因如下。
出改进方案：首个聚类中心仍随机选取，后续中 1）非线性拟合能力：负荷曲线通常具有复杂
心选择时采用距离加权策略。具体而言，当已确的时间序列模式，如峰值、周期波动、非线性
定 n 个初始中心（0＜n＜k）时，第 n+1 个中心将趋势，高斯核通过非线性映射能更好捕捉这些
优先选择与现有中心距离较远的数据点，通过概特征。
率加权实现这一优化目标。该优化方法的核心在 2）局部敏感性：基于指数衰减的相似度计算
于最大化初始聚类中心的间距：若初始中心过于能有效识别局部相似性，如形状相似的负荷片段。
接近属同一个簇，将导致需要多次迭代才能正确 3）参数鲁棒性：仅需调节核宽度，即可平衡
分配；反之，当初始中心分布较远属不同簇，可聚类粒度。
提升算法收敛速度并改善最终聚类质量。负荷曲线聚类具体流程如图 2 所示。
针对负荷曲线在原始空间使用欧氏距离度量
输入负荷数据，
效果不佳的问题，可采用核方法进行优化。该方 n为样本各数
法通过非线性变换将负荷曲线映射至高维特征空
补全数据
间，从而更好地捕捉数据特征，并在变换后的空并归一化
间中进行聚类分析。非线性映射通过提升数据线
选取相距尽量较远的
性可分性，使聚类算法能够基于负荷曲线的高维 K个样本作为初始聚
类中心
特征实现更精准的样本距离计算，从而优化聚类
取消该簇，计算负荷曲线到聚类中心
效果。当前簇数的距离，并划分到聚类
k=n−1 中心所在簇类
然而，直接定义显式映射函数将低维数据转
换至高维空间存在明显缺陷：不仅需要逐个处理
否判断簇中参考点是否
数据点的映射转换，还会导致高维空间中的计算满足最小样本数目?
复杂度急剧上升，同时面临数据稀疏性问题。
是
核函数作为核方法的核心组件，实现了输入
k≤n/2执行
空间 X 到高维空间 H 的非线性映射，定义映射函判断簇类数是否满足否分裂操作；
n/2≤k≤2n? k≥2n执行合
数 ϕ(x)将样本 x 转换为特征向量 h：h= ϕ(x)。当且并操作
仅当存在二元函数 K(x, z)，对于任意 x, z∈X 都满是
迭代次数为奇数，分裂
足内积关系 K(x, z)= ϕ(x)ϕ(z)，则称 K(x, z) 为核函操作；迭代次数为偶数，
合并操作
数。核函数通过隐式计算高维特征空间的内积，
达到最大迭代次数
避免了显式映射过程。核方法通过核函数 K(x, z) 或者收敛
直接计算样本间的相似度，避免了显式映射到高
输出聚类
维空间的复杂计算。在聚类算法中，样本间的相结果
似度通常用内积或距离衡量，而核函数可以高效图 2 K-L-ISODATA 算法聚类流程
计算高维空间中的内积或距离。因此，核方法能 Fig. 2 K-L-ISODATA algorithm clustering process

128

127 128 129 130 131 132 133 134 135 136 137