Page 52 - 《真空与低温》2025年第5期
P. 52

苗毅珂等:主成分和相关性分析在热泵系统运行数据挖掘中的融合应用                                        591


                                                                各变量的系数有大有小,有正有负,因而不能简单
                                            
                                  x 11 x 12 ··· x 1p
                                            
                                            
                                            
                                                              地认为这个主成分是单一变量的属性的作用,线性
                                             
                                   x 21 x 22 ··· x 2p
                                            
                                                   (3)
                             X =   .  .  .                   组合中各变量系数的绝对值大,表明该主成分主要
                                  .  . .  . .  .   
                                 
                                  .
                                            . 
                                 
                                           .  
                                            
                                                              综合绝对值大的变量属性。本文中各变量系数的
                                  x n1 x n2 ··· x np
                                                                绝对值排序后的向量为:
                       x ij − x j
                  ∗           ,i = 1,2,··· ,n; j = 1,2,··· , p (4)           (            )
                                                                                  ′
                                                                          ′
                                                                               ′
                                                                                         ′
                x ij = √                                                 a i = a i1 ,a i2 ,··· ,a ip ,i = 1,2,··· p  (8)
                        var(x j ) 2
                                                                 2.2 相关性分析
                           n                 n
                         1 ∑             1 ∑         2
              式 中:  x j =   x i j , var( x j ) =  ( x ij − x j ) ( j = 1,  数据之间往往存在潜在的关联性,揭示这些关
                         n i=1          n−1 i=1
              2,··· , p)。                                       联关系能够深入挖掘数据背后的价值。在实际应
               2.1 主成分分析                                        用中,假设被研究的两个对象之间为线性关系,那
                  在数据挖掘中,多个变量之间存在一定的相关                          么可以利用皮尔逊相关系数               γ来表述二者之间关
                                                                系的程度,其定义如式(9)所示 :
                                                                                            [16]
              性。当变量个数较多且变量之间存在复杂关系时,
                                                                                    (     )
                                                                                  ∑ N
              会显著增加分析问题的复杂性。主成分分析法                        [16]                     1  f i − f (g i −g)
                                                                          γ = √                          (9)
              (PCA)是一种常用的数据分析方法,用于提取数据                                          ∑ N  (  ) 2  √ ∑ N  2
              中的主要特征,并降低数据的维度。以下是                       PCA                      1  f i − f  1  (g i −g)
                                                                                    f f 为样本 的均值; 为第
              的典型步骤介绍。                                          式中:   f i为第  i 个样本 ;           f        g i
                  (1)计算样本数据相关系数矩阵                               i 个样本;   g为样本    g的均值。
                  假定原始数据标准化后仍用               X  表示,则经标准              由于事物之间联系的复杂性,在实际研究中,
              化处理后数据的相关系数为:                                     确定出来的相关系数           γ即使是高度相关,在解释相
                                                                关系数时,还要结合具体变量的性质特点和有关专
                                            
                                  r 11 r 12 ··· r 1p 
                                            
                                            
                                                              业知识进行。相关系数             γ接近零,这表明虽然这
                                            
                                             
                                   r 21 r 22 ··· r 2p 
                                            
                              ′                    (5)
                             R =   .  .  .                   两个变量之间没有显著的线性相关性,但无法排除
                                  .  .  .  .  
                                 
                                  .  .  .  .  
                                 
                                           . 
                                                              它们之间可能存在其他形式的规律性联系。
                                            
                                            
                                  r p1 r p2 ··· r pp
                                                                 2.3 Spearman 秩相关分析
                                         k=n
                                         ∑        (     )
                                                                     在进行线性相关性分析后,进一步用
                             (    )        (x ki − x i ) x k j − x j                                  Spearman
                          cov x i , x j  k=1
              式中:   r ij = √  √      =√          √         ,    秩相关分析研究热泵系统中参数间的非线性关系。
                         var(x 1 ) var(x 2 )  k=n  2 ∑(   ) 2
                                                   k=n
                                         ∑
                                          (x ki −x i )  x ki −x j  与皮尔逊相关系数不同,Spearman 秩相关系数不要
              n>1。                       k=1       k=1
                                                                求变量之间存在线性关系,适用于对非线性的变量
                  (2)计算相关系数矩阵         R 的特征值     (λ 1 ,λ 2 ,···,
                                        ′
                                                                进行分析,Spearman 秩相关系数的公式              [17]  为:
                )
              λ p ,相应的特征向量:                                                              n
                                                                                         ∑   2
                                                                                        6
                           (           )                                                   D i
                        a i = a i1 ,a i2 ,··· ,a ip ,i = 1,2,··· p  (6)                  i=1
                                                                                ρ = 1−                  (10)
                                                                                          2
                  (3)选择重要主成分,写出主成分表达式                                                  n(n −1)
                                                                式中:D i 为每两个变量的秩次之差;n 为数据点的总数。
                  主成分分析可以得到           P  个主成分,由于各个主
              成分的方差是递减的,包含的信息量也是递减的,                             3 结果分析
              所以实际分析时,根据各个主成分累计贡献率的大                             3.1 基于主成分分析的运行数据的特征提取
              小选取前     k 个主成分,贡献率是指某个主成分的方                           PCA  方法通过按方差贡献率对主成分进行排
              差占全部方差的比重,即:                                      序,提取出包含绝大部分原始数据信息的若干主成
                                         λ i                    分。在对原始        30 个参数特征进行变换处理后,新
                              贡献率 =                    (7)
                                        p
                                       ∑
                                                                的主成分特征量可视为原始               30 个参数特征的一个
                                          λ i
                                        i=1                     多项式组合。如图          3 所示,前    5 个主成分特征已经
                  一般要求累计贡献率达到              85%  以上,这样才          能够反映      85%  以上的信息。与原始           30 个特征相
              能保证综合变量能包括原始变量的绝大多数信息。                            比,PCA   方法显著减少了特征的数量,且仍能有效
              主成分是原来变量的线性组合,在这个线性组合中                            表征运行数据。
   47   48   49   50   51   52   53   54   55   56   57