Page 131 - 《中国电力》2026年第3期

P. 131

蒋达飞等：基于改进 ISODATA 算法的变电站负荷特性聚类 2026 年第 3 期

基于改进 ISODATA 算法的变电站负荷聚类算法，路是：针对存在缺失值的样本，首先在数据集中
并对华北地区某市变电站负荷数据开展算例分析。搜索与其特征最接近的 K 个邻近样本，然后利用
通过主成分分析（principal component analysis，PCA）这些邻近样本的平均值来填补缺失值。
降维与 K-L-ISODATA 聚类分析，有效识别出不同机器学习在建模过程中，样本数据量级差异
季节的负荷行为特征，为分季调度与新能源消纳可能影响模型性能，用梯度下降的方法优化参数
策略提供了数据支撑。时，未归一化的数据可能降低收敛效率；同时，

在涉及样本间距离计算的模型中，数值量级较大
1 数据预处理和聚类指标的特征会主导距离度量。因此，对数据进行归一
化处理至关重要，这既能加速模型训练，又能提
随着电力能源互联网的发展，电力数据呈现高预测性能。线性归一化通过线性变换将数据转
出规模持续扩大、覆盖范围不断拓展、数据类型换至 0~1 范围。
日益多元化的特点 [23-24] 。本文变电站负荷聚类应聚类作为无监督学习方法，通过样本划分挖
用流程如图 1 所示。由于设备故障或人为操作失掘潜在类别特征 [27-30] ，其效果评估无法像监督学
误等原因，变电站运行存在数据缺失现象。另习那样通过与真实标签对比的方式来实现。聚类
外，数据归一化是提升模型训练效率的关键预处优化的核心目标是最大化簇内相似度的同时最小
理步骤。为确保数据的可用性，亟须对其进行预化簇间相似度，假设聚类结果为 C=(C , C , ···, C )，
k
2
1
处理。基于此标准，本文选用戴维斯-布尔丁指数（davies-
bouldin index，DBI）和邓恩指数（dunn index，DI）

来进行聚类效果评估。
另外，选取方差比准则（calinski-harabasz index，
智效果分析 CHI）和轮廓系数（ silhouette coefficient， SC）辅
能
算
形成数据库法助评价聚类效果，两者均数值越大代表聚类效果
越理想，由于篇幅限制，原理在此不再赘述。

监测、预处理数据负荷聚类数据分析
2 基于 K-L-ISODATA 的负荷曲线聚类
原始数据数据支撑
算法

为提高分类效果，本文重点探讨负荷曲线的
高效聚类方法。传统 K-means 算法因其简单易行
定制策略
的特点被广泛应用于负荷曲线聚类分析，但 K-means
电网规划、储能配置
变电站及调度决策
算法存在若干局限性：聚类数需预先设定、初始
图 1 变电站负荷聚类应用流程中心选择具有随机性以及欧式距离度量在原始特
Fig. 1 Application process of load clustering 征空间中的聚类效果欠佳。为了克服这些局限性，
in substations
本文将深入研究 ISODATA 算法及其改进方法。
目前，通常可采用删除或填充两种处理方式虽然 ISODATA 算法改进了 K-means 的部分缺
应对数据缺失带来的影响 [25] 。针对不影响数据完陷，但仍存在不足。该算法仍采用随机选取聚类
整性的少量标签缺失现象，可考虑直接剔除。对中心的方式，这会直接影响聚类收敛速度和最终
于样本间具有时序依赖性的负荷数据，直接剔除效果。另外，ISODATA 默认使用欧氏距离度量，
可能导致数据连续性受损。因此，本文采用填充该距离度量通过计算各维度差值平方和来实现，
方法来处理缺失值。即在负荷曲线分析中对归一化后各时刻负荷差值
本文采用 K 最近邻算法（ k-nearest neighbors，求平方和。然而，这种基于欧氏距离的度量方法
KNN）来填充负荷曲线中的缺失值 [26] ，其核心思存在明显局限性：单纯计算对应维度负荷差难以

127

126 127 128 129 130 131 132 133 134 135 136