Page 132 - 《中国电力》2026年第3期
P. 132

2026  年 第 59 卷



              捕捉高维时序特征,特别是负荷数据特有的周期                             有效应用于聚类算法,无需显式计算高维映射,
              性特性,导致原始特征空间聚类效果欠佳。                               从而降低计算复杂度。
                  针对上述存在的不足之处,本文提出将                   Kernel-       在 聚 类 计 算 过 程 中 可 隐 式 处 理 特 征 映 射 关
              Load curve-ISODATA  聚类算法用于电力负荷识别领                 系,仅需利用核函数即可完成计算。为了提升计
              域,以下以     K-L-ISODATA  简称,该算法将        ISODATA     算效率,可预先计算样本集中所有样本对的核函
              算 法 引 入 电 力 负 荷 曲 线 聚 类 领 域 并 进 行 双 重 优           数值,并存储为核矩阵,后续直接查表调用。核
              化,即对初始聚类中心的选取进行优化以及采用                             函数的选择直接影响特征空间的映射特性,进而
              核方法来获取负荷曲线的高维特征,使聚类算法                             导致不同的聚类效果,常用的核函数包括:线性
              效果得到进一步提升。                                        核函数、多项式核函数和高斯核函数。本文在负
                  针对初始聚类中心随机选择的问题,本文提                           荷曲线聚类时选取高斯核函数,原因如下。
              出改进方案:首个聚类中心仍随机选取,后续中                                 1)非线性拟合能力:负荷曲线通常具有复杂
              心选择时采用距离加权策略。具体而言,当已确                             的 时 间 序 列 模 式 , 如 峰 值 、 周 期 波 动 、 非 线 性
              定  n  个初始中心(0<n<k)时,第             n+1  个中心将       趋 势 , 高 斯 核 通 过 非 线 性 映 射 能 更 好 捕 捉 这 些
              优先选择与现有中心距离较远的数据点,通过概                             特征。
              率加权实现这一优化目标。该优化方法的核心在                                 2)局部敏感性:基于指数衰减的相似度计算
              于最大化初始聚类中心的间距:若初始中心过于                             能有效识别局部相似性,如形状相似的负荷片段。
              接近属同一个簇,将导致需要多次迭代才能正确                                 3)参数鲁棒性:仅需调节核宽度,即可平衡
              分配;反之,当初始中心分布较远属不同簇,可                             聚类粒度。
              提升算法收敛速度并改善最终聚类质量。                                    负荷曲线聚类具体流程如图              2  所示。
                  针对负荷曲线在原始空间使用欧氏距离度量
                                                                                   输入负荷数据,
              效果不佳的问题,可采用核方法进行优化。该方                                                 n为样本各数
              法通过非线性变换将负荷曲线映射至高维特征空
                                                                                     补全数据
              间,从而更好地捕捉数据特征,并在变换后的空                                                  并归一化
              间中进行聚类分析。非线性映射通过提升数据线
                                                                                 选取相距尽量较远的
              性可分性,使聚类算法能够基于负荷曲线的高维                                               K个样本作为初始聚
                                                                                      类中心
              特征实现更精准的样本距离计算,从而优化聚类
                                                                   取消该簇,        计算负荷曲线到聚类中心
              效果。                                                   当前簇数         的距离,并划分到聚类
                                                                     k=n−1         中心所在簇类
                  然而,直接定义显式映射函数将低维数据转
              换至高维空间存在明显缺陷:不仅需要逐个处理
                                                                             否   判断簇中参考点是否
              数据点的映射转换,还会导致高维空间中的计算                                               满足最小样本数目?
              复杂度急剧上升,同时面临数据稀疏性问题。
                                                                                         是
                  核函数作为核方法的核心组件,实现了输入
                                                                                                     k≤n/2执行
              空间   X  到高维空间     H  的非线性映射,定义映射函                                  判断簇类数是否满足       否  分裂操作;
                                                                                    n/2≤k≤2n?       k≥2n执行合
              数  ϕ(x)将样本   x 转换为特征向量        h:h=  ϕ(x)。当且                                             并操作
              仅当存在二元函数          K(x, z),对于任意     x, z∈X  都满                              是
                                                                                 迭代次数为奇数,分裂
              足 内 积 关 系   K(x, z)= ϕ(x)ϕ(z), 则 称  K(x, z) 为 核 函                 操作;迭代次数为偶数,
                                                                                     合并操作
              数。核函数通过隐式计算高维特征空间的内积,
                                                                                  达到最大迭代次数
              避免了显式映射过程。核方法通过核函数                       K(x, z)                       或者收敛
              直接计算样本间的相似度,避免了显式映射到高
                                                                                     输出聚类
              维空间的复杂计算。在聚类算法中,样本间的相                                                   结果
              似度通常用内积或距离衡量,而核函数可以高效                                       图 2   K-L-ISODATA  算法聚类流程
              计算高维空间中的内积或距离。因此,核方法能                                Fig. 2    K-L-ISODATA algorithm clustering process

              128
   127   128   129   130   131   132   133   134   135   136   137