Page 52 - 《真空与低温》2025年第5期
P. 52
苗毅珂等:主成分和相关性分析在热泵系统运行数据挖掘中的融合应用 591
各变量的系数有大有小,有正有负,因而不能简单
x 11 x 12 ··· x 1p
地认为这个主成分是单一变量的属性的作用,线性
x 21 x 22 ··· x 2p
(3)
X = . . . 组合中各变量系数的绝对值大,表明该主成分主要
. . . . . .
.
.
.
综合绝对值大的变量属性。本文中各变量系数的
x n1 x n2 ··· x np
绝对值排序后的向量为:
x ij − x j
∗ ,i = 1,2,··· ,n; j = 1,2,··· , p (4) ( )
′
′
′
′
x ij = √ a i = a i1 ,a i2 ,··· ,a ip ,i = 1,2,··· p (8)
var(x j ) 2
2.2 相关性分析
n n
1 ∑ 1 ∑ 2
式 中: x j = x i j , var( x j ) = ( x ij − x j ) ( j = 1, 数据之间往往存在潜在的关联性,揭示这些关
n i=1 n−1 i=1
2,··· , p)。 联关系能够深入挖掘数据背后的价值。在实际应
2.1 主成分分析 用中,假设被研究的两个对象之间为线性关系,那
在数据挖掘中,多个变量之间存在一定的相关 么可以利用皮尔逊相关系数 γ来表述二者之间关
系的程度,其定义如式(9)所示 :
[16]
性。当变量个数较多且变量之间存在复杂关系时,
( )
∑ N
会显著增加分析问题的复杂性。主成分分析法 [16] 1 f i − f (g i −g)
γ = √ (9)
(PCA)是一种常用的数据分析方法,用于提取数据 ∑ N ( ) 2 √ ∑ N 2
中的主要特征,并降低数据的维度。以下是 PCA 1 f i − f 1 (g i −g)
f f 为样本 的均值; 为第
的典型步骤介绍。 式中: f i为第 i 个样本 ; f g i
(1)计算样本数据相关系数矩阵 i 个样本; g为样本 g的均值。
假定原始数据标准化后仍用 X 表示,则经标准 由于事物之间联系的复杂性,在实际研究中,
化处理后数据的相关系数为: 确定出来的相关系数 γ即使是高度相关,在解释相
关系数时,还要结合具体变量的性质特点和有关专
r 11 r 12 ··· r 1p
业知识进行。相关系数 γ接近零,这表明虽然这
r 21 r 22 ··· r 2p
′ (5)
R = . . . 两个变量之间没有显著的线性相关性,但无法排除
. . . .
. . . .
.
它们之间可能存在其他形式的规律性联系。
r p1 r p2 ··· r pp
2.3 Spearman 秩相关分析
k=n
∑ ( )
在进行线性相关性分析后,进一步用
( ) (x ki − x i ) x k j − x j Spearman
cov x i , x j k=1
式中: r ij = √ √ =√ √ , 秩相关分析研究热泵系统中参数间的非线性关系。
var(x 1 ) var(x 2 ) k=n 2 ∑( ) 2
k=n
∑
(x ki −x i ) x ki −x j 与皮尔逊相关系数不同,Spearman 秩相关系数不要
n>1。 k=1 k=1
求变量之间存在线性关系,适用于对非线性的变量
(2)计算相关系数矩阵 R 的特征值 (λ 1 ,λ 2 ,···,
′
进行分析,Spearman 秩相关系数的公式 [17] 为:
)
λ p ,相应的特征向量: n
∑ 2
6
( ) D i
a i = a i1 ,a i2 ,··· ,a ip ,i = 1,2,··· p (6) i=1
ρ = 1− (10)
2
(3)选择重要主成分,写出主成分表达式 n(n −1)
式中:D i 为每两个变量的秩次之差;n 为数据点的总数。
主成分分析可以得到 P 个主成分,由于各个主
成分的方差是递减的,包含的信息量也是递减的, 3 结果分析
所以实际分析时,根据各个主成分累计贡献率的大 3.1 基于主成分分析的运行数据的特征提取
小选取前 k 个主成分,贡献率是指某个主成分的方 PCA 方法通过按方差贡献率对主成分进行排
差占全部方差的比重,即: 序,提取出包含绝大部分原始数据信息的若干主成
λ i 分。在对原始 30 个参数特征进行变换处理后,新
贡献率 = (7)
p
∑
的主成分特征量可视为原始 30 个参数特征的一个
λ i
i=1 多项式组合。如图 3 所示,前 5 个主成分特征已经
一般要求累计贡献率达到 85% 以上,这样才 能够反映 85% 以上的信息。与原始 30 个特征相
能保证综合变量能包括原始变量的绝大多数信息。 比,PCA 方法显著减少了特征的数量,且仍能有效
主成分是原来变量的线性组合,在这个线性组合中 表征运行数据。

