Page 131 - 《中国电力》2026年第3期
P. 131

蒋达飞等:基于改进           ISODATA  算法的变电站负荷特性聚类                            2026  年第 3 期



              基于改进     ISODATA  算法的变电站负荷聚类算法,                   路是:针对存在缺失值的样本,首先在数据集中
              并对华北地区某市变电站负荷数据开展算例分析。                            搜索与其特征最接近的             K  个邻近样本,然后利用
              通过主成分分析(principal component analysis,PCA)         这些邻近样本的平均值来填补缺失值。
              降维与    K-L-ISODATA  聚类分析,有效识别出不同                      机器学习在建模过程中,样本数据量级差异
              季节的负荷行为特征,为分季调度与新能源消纳                             可能影响模型性能,用梯度下降的方法优化参数
              策略提供了数据支撑。                                        时,未归一化的数据可能降低收敛效率;同时,

                                                                在涉及样本间距离计算的模型中,数值量级较大
              1    数据预处理和聚类指标                                   的特征会主导距离度量。因此,对数据进行归一
                                                                化处理至关重要,这既能加速模型训练,又能提
                  随着电力能源互联网的发展,电力数据呈现                           高预测性能。线性归一化通过线性变换将数据转
              出规模持续扩大、覆盖范围不断拓展、数据类型                             换至   0~1  范围。
              日益多元化的特点          [23-24] 。本文变电站负荷聚类应                 聚类作为无监督学习方法,通过样本划分挖
              用流程如图      1  所示。由于设备故障或人为操作失                     掘潜在类别特征         [27-30] ,其效果评估无法像监督学
              误 等 原 因 , 变 电 站 运 行 存 在 数 据 缺 失 现 象 。 另           习那样通过与真实标签对比的方式来实现。聚类
              外,数据归一化是提升模型训练效率的关键预处                             优化的核心目标是最大化簇内相似度的同时最小
              理步骤。为确保数据的可用性,亟须对其进行预                             化簇间相似度,假设聚类结果为                C=(C , C , ···, C ),
                                                                                                            k
                                                                                                      2
                                                                                                   1
              处理。                                               基于此标准,本文选用戴维斯-布尔丁指数(davies-
                                                                bouldin index,DBI)和邓恩指数(dunn index,DI)

                                                                来进行聚类效果评估。
                                                                    另外,选取方差比准则(calinski-harabasz index,
                                               智    效果分析        CHI) 和 轮 廓 系 数 ( silhouette coefficient, SC) 辅
                                               能
                                               算
                                  形成数据库        法                助评价聚类效果,两者均数值越大代表聚类效果
                                                                越理想,由于篇幅限制,原理在此不再赘述。

                    监测、预处理数据               负荷聚类     数据分析
                                                                2    基 于  K-L-ISODATA     的 负 荷 曲 线 聚 类
                     原始   数据                  数据   支撑
                                                                    算法


                                                                    为提高分类效果,本文重点探讨负荷曲线的
                                                                高效聚类方法。传统            K-means 算法因其简单易行
                                   定制策略
                                                                的特点被广泛应用于负荷曲线聚类分析,但                    K-means
                                            电网规划、储能配置
                       变电站                     及调度决策
                                                                算法存在若干局限性:聚类数需预先设定、初始
                         图 1   变电站负荷聚类应用流程                      中心选择具有随机性以及欧式距离度量在原始特
                   Fig. 1    Application process of load clustering  征空间中的聚类效果欠佳。为了克服这些局限性,
                                in substations
                                                                本文将深入研究         ISODATA  算法及其改进方法。
                  目前,通常可采用删除或填充两种处理方式                               虽然   ISODATA  算法改进了       K-means 的部分缺
              应对数据缺失带来的影响             [25] 。针对不影响数据完            陷,但仍存在不足。该算法仍采用随机选取聚类
              整性的少量标签缺失现象,可考虑直接剔除。对                             中心的方式,这会直接影响聚类收敛速度和最终
              于样本间具有时序依赖性的负荷数据,直接剔除                             效果。另外,ISODATA          默认使用欧氏距离度量,
              可能导致数据连续性受损。因此,本文采用填充                             该距离度量通过计算各维度差值平方和来实现,
              方法来处理缺失值。                                         即在负荷曲线分析中对归一化后各时刻负荷差值
                  本 文 采 用   K  最 近 邻 算 法 ( k-nearest neighbors,  求平方和。然而,这种基于欧氏距离的度量方法
              KNN)来填充负荷曲线中的缺失值                 [26] ,其核心思       存在明显局限性:单纯计算对应维度负荷差难以

                                                                                                           127
   126   127   128   129   130   131   132   133   134   135   136