Page 288 - 《振动工程学报》2026年第5期
P. 288

1492                               振     动     工     程     学     报                     第 39 卷

              聚类正确的个数与总样本数的百分比,结果如表                        1    X mi 为变量最大值和最小值。
                                                                   n

              所示。可以看出,K-means 和         SOM  方法正确率都是
                                                                2.3    确定分类数   k
              99.8%,层次聚类的正确率为           99.6%。由此可知,3      种
              方法均具有分区可行性。                                           分区数目过少,会导致建筑结构表面风压描述

                          表 1 三种聚类方法对比结果                        不够准确,给抗风设计带来隐患;分区数目过多,则
                 Tab. 1 Comparison results of three clustering methods  会使得设计、施工不便利。建筑结构风压系数分区

                      聚类方法                   正确率/%              数的最大值      k ma 取测点个数     n  的开放值   [13] ,即  k max ≤
                                                                              x
                       K-means                 99.8              √          [14]
                                                                  n,FREY  等   证明了最大取值的合理性。最优分
                      层次聚类                     99.6
                                                                类数   k 的范围限定为       1~k max 。在确定最优分类区间
                        SOM                    99.8
                                                                的基础上,综合手肘法           [15]  和平均轮廓系数曲线确定
                                                                分区数目,即为基于         k-SSE  曲线的手肘法,具体步骤为:
              2    考  虑  风  压  相  关  性  的  风  压  分  区  方  法
                                                                    ①依次选定      k=1,2,…,k ma 进行聚类。
                                                                                         x
                                                                    ②计算每个      k 值对应的误差平方和         SSE:

              2.1    引入测点相关系数
                                                                                                  2
                                                                                     k ∑ v r ∑
                                                                              S S E =      p ri − p    (3)
                                                                                               r
                  为了弥补传统分区方法对风压分区结果造成离                                              r=1 i=1
              散的缺点,YANG       等  [5]  提出一种以极值风压系数和              式中,   p ri 为第  r类中第  i个测点风压系数值;         p 为第
                                                                                                         r
              坐标位置为依据的加权            K-means 分区方法。本文在            r类中所有测点风压系数平均值; 为第                   r类中所有
                                                                                               v r
              对风压系数分区之前,引入测点风压相关系数作为                            测点数量。
              分区依据之一。根据风洞试验计算得到的风压系数                                ③根据每个      k 值及由式(3)求得的        SSE  值,绘制
              时程,可以求得各个测点之间的风压相关系数。各                            k-SSE  关系曲线。
              测点间的相关系数构成了相关系数矩阵,对矩阵的                                ④观察曲线的肘部位置(曲线由陡峭下降转为
              每一行求均值得到一组新的变量,该组变量反映了                            平缓变化的肘部拐点),即为             k 值。
              对应风向角下结构表面不同风压大小的分布区域,                                轮廓系数     [16] (silhouette coefficient)使用数据集中
              结合风压系数和该变量共同进行分区。分区流程如                            对象之间的相似性度量来评估聚类结果的质量,是
              图  3  所示。                                         类密集与分散程度的评价指标,它反映了每个数据
                                                                点与同类别中其他数据点的平均距离和与不同类别
                 通过风压系数时程计算各
                     测点相关系数                                     中最近数据点的平均距离的比值。第                   i 个测点的轮
                                             确定k值后用三种
                                              方法进行分区            廓系数计算公式为:
                 相关系数矩阵每行的均值                                                          b(i)−a(i)
                                                                                  ′
                      组成向量V                                                    SC =                       (4)
                                             计算不同方法结果                               max(a(i),b(i))
                                             的评价指标数值            式中,a(i) 为测点     i 的系数与其所属类中其他测点系
                 风压系数数据集单位化后
                 与向量V组成新的数据集P                                   数的平均距离;b(i) 为测点         i 的系数与其他类中所有
                                              分析, 得出比较
                                                研究结果            测点系数的平均距离的最小值;                SC 介于   [−1,1],越
                                                                                                 ′
                  通过k-SSE及k-轮廓系数
                    曲线确定分类数k                                    接近   1  表示聚类结果越好,越接近−1            表示测点      i 更

                                                                应该分入另外的类,即聚类结果差,接近                   0  则表示测
                        图 3 优化的聚类算法分区流程图
                                                                点  i 在两个类的边界附近。
                 Fig. 3 Flowchart of the optimized clustering algorithm

                                                                    对所有测点的轮廓系数           SC 求平均,得到最终的
                                                                                            ′
              2.2    数据集规一化                                     平均轮廓系数。绘制分类数              k 与平均轮廓系数关系
                                                                曲线,基于手肘法,观察曲线的最高点位置确定最优
                  为保证聚类时数据不会偏向于某一维度产生过
                                                                的  k 值。
              拟合,需对数据集进行归一化,即将不同维度数据调
              整至同一取值水平。本文引入测点相关系数后,对                            2.4    选取初始聚类中心
              数据进行了最小-最大归一化。后文结合考虑测点
                                                                    针对传统风压系数分区中,初始聚类中心随机
              位置和同时考虑测点相关系数及位置两种情况,同
                                                                选取存在的不足,引入轮盘法基本思想                  [17]  对其进行
              样对数据进行了最小-最大归一化。
                                                                改进,具体步骤如下:
                                      X − X min
                             X min-max =               (2)          ①从    个测点数据集       m = {m i |i = 1,2,··· ,n}中随机
                                     X max − X min                       n
              式 中, X  表 示 数 据 各 个 维 度 上 的 列 向 量 ; X ma 和        选取一个数据作为第          1  个聚类中心    c 1 。
                                                         x
   283   284   285   286   287   288   289   290   291   292   293