Page 131 - 《中国电力》2026年第3期
P. 131
蒋达飞等:基于改进 ISODATA 算法的变电站负荷特性聚类 2026 年第 3 期
基于改进 ISODATA 算法的变电站负荷聚类算法, 路是:针对存在缺失值的样本,首先在数据集中
并对华北地区某市变电站负荷数据开展算例分析。 搜索与其特征最接近的 K 个邻近样本,然后利用
通过主成分分析(principal component analysis,PCA) 这些邻近样本的平均值来填补缺失值。
降维与 K-L-ISODATA 聚类分析,有效识别出不同 机器学习在建模过程中,样本数据量级差异
季节的负荷行为特征,为分季调度与新能源消纳 可能影响模型性能,用梯度下降的方法优化参数
策略提供了数据支撑。 时,未归一化的数据可能降低收敛效率;同时,
在涉及样本间距离计算的模型中,数值量级较大
1 数据预处理和聚类指标 的特征会主导距离度量。因此,对数据进行归一
化处理至关重要,这既能加速模型训练,又能提
随着电力能源互联网的发展,电力数据呈现 高预测性能。线性归一化通过线性变换将数据转
出规模持续扩大、覆盖范围不断拓展、数据类型 换至 0~1 范围。
日益多元化的特点 [23-24] 。本文变电站负荷聚类应 聚类作为无监督学习方法,通过样本划分挖
用流程如图 1 所示。由于设备故障或人为操作失 掘潜在类别特征 [27-30] ,其效果评估无法像监督学
误 等 原 因 , 变 电 站 运 行 存 在 数 据 缺 失 现 象 。 另 习那样通过与真实标签对比的方式来实现。聚类
外,数据归一化是提升模型训练效率的关键预处 优化的核心目标是最大化簇内相似度的同时最小
理步骤。为确保数据的可用性,亟须对其进行预 化簇间相似度,假设聚类结果为 C=(C , C , ···, C ),
k
2
1
处理。 基于此标准,本文选用戴维斯-布尔丁指数(davies-
bouldin index,DBI)和邓恩指数(dunn index,DI)
来进行聚类效果评估。
另外,选取方差比准则(calinski-harabasz index,
智 效果分析 CHI) 和 轮 廓 系 数 ( silhouette coefficient, SC) 辅
能
算
形成数据库 法 助评价聚类效果,两者均数值越大代表聚类效果
越理想,由于篇幅限制,原理在此不再赘述。
监测、预处理数据 负荷聚类 数据分析
2 基 于 K-L-ISODATA 的 负 荷 曲 线 聚 类
原始 数据 数据 支撑
算法
为提高分类效果,本文重点探讨负荷曲线的
高效聚类方法。传统 K-means 算法因其简单易行
定制策略
的特点被广泛应用于负荷曲线聚类分析,但 K-means
电网规划、储能配置
变电站 及调度决策
算法存在若干局限性:聚类数需预先设定、初始
图 1 变电站负荷聚类应用流程 中心选择具有随机性以及欧式距离度量在原始特
Fig. 1 Application process of load clustering 征空间中的聚类效果欠佳。为了克服这些局限性,
in substations
本文将深入研究 ISODATA 算法及其改进方法。
目前,通常可采用删除或填充两种处理方式 虽然 ISODATA 算法改进了 K-means 的部分缺
应对数据缺失带来的影响 [25] 。针对不影响数据完 陷,但仍存在不足。该算法仍采用随机选取聚类
整性的少量标签缺失现象,可考虑直接剔除。对 中心的方式,这会直接影响聚类收敛速度和最终
于样本间具有时序依赖性的负荷数据,直接剔除 效果。另外,ISODATA 默认使用欧氏距离度量,
可能导致数据连续性受损。因此,本文采用填充 该距离度量通过计算各维度差值平方和来实现,
方法来处理缺失值。 即在负荷曲线分析中对归一化后各时刻负荷差值
本 文 采 用 K 最 近 邻 算 法 ( k-nearest neighbors, 求平方和。然而,这种基于欧氏距离的度量方法
KNN)来填充负荷曲线中的缺失值 [26] ,其核心思 存在明显局限性:单纯计算对应维度负荷差难以
127

