Page 203 - 《高原气象》2026年第2期
P. 203

2 期               卢   姝等:融合地形特征和神经网络的日最高/最低气温预报订正方法研究                                      503
               2. 3 数据预处理                                        域。具体做法(Hartigan and Wong, 1979)是以空间
                   数据预处理步骤对模型精度的提高发挥着重                           中 k 个中心进行聚类, 对最靠近他们的对象归类,
               要作用。在建模前, 需要对预报与观测数据进行数                           通过迭代的方法, 逐次更新聚类中心的值, 直至得
               据清洗。因ECMWF预报产品高空与地面要素空间                           到最好的聚类结果, 实现的目标函数是:
               分辨率不一致, 本文采用双线性插值方法将上述产                                                   n
                                                                                            2
                                                                        min (c 1 ,c 2 ,⋯,c k ) ∑ d [ X i ,C ( X i ) ]  (2)
               品统一插值至0. 05°×0. 05°分辨率, 以匹配观测数据                                           i = 1
               网格。ECMWF 预报产品中存在少数日期缺失, 采                         式中: c , c , …, c 分别为 k 个簇的中心; C(X)表
                                                                                                           i
                                                                        1
                                                                                  k
                                                                           2
                                                                                          2
               用线性插值方式填补时间序列中缺失数据, 并从中                           示 X 是所属类的中心点; d 为 X 与 C(X)两点距离
                                                                                              i
                                                                     i
                                                                                                     i
               挑选与观测数据对应的时间以保持预报与观测时间                            的平方。
               维度一致。由于数据集中的因子具有不同尺度, 如                               本研究基于“肘部法则”确定最佳 k 值, 图 2(a)
               果不经过处理会导致在较低尺度上重要因子的有效                            为不同k值对应的误差平方和(SSE)变化趋势, 当k>
               性被稀释, 因此本文对所有因子进行标准化处理[式                          3 时, SSE 随 k 值的下降速率明显减缓, 表明增加更
              (1)], 标准化后的数值处于[0, 1]之间。                           多簇对减少 SSE 的贡献变小, 因此选定 k=3 为最优
                                                                 簇数。聚类分区结果可以较好反应湖南地形区划特
                               x =  x - X min            (1)
                                *
                                   X max - X min                 征, 区域-1主要分布在湘西、 湘南山地山原区(平均
               式中: x和 x*分别代表标准化前后的数据; X               max 为样     高程813. 30 m, 坡度21. 16°); 区域-2对应湘北、 湘
               本数据的最大值; X 为样本数据的最小值。                             中平原区(平均高程 97. 71 m, 坡度 6. 98°); 区域-3
                                min
                                                                 处于平原和山地的过渡地带, 覆盖了湘西、 湘南山
               3  方法
                                                                 丘区域(平均高程 348. 54 m, 坡度 16. 35°)[图 2
               3. 1 K-means聚类法                                  (b)]。将聚类结果作为特征因子, 并进行独热编码
                   为了反映实际地理特征, 将数字高程、 坡度、                        预处理, 将离散数值的特征转换成一个只含有0和1
               坡向这几个因子作为聚类分区的依据, 应用 K-                           的向量, 以更好表达分类变量。获得的聚类地理特
               means 聚类算法将研究区域内的格点划分为 k 个区                       征可以作为神经网络的输入帮助建模。























                              图2 误差平方和随聚类数量的变化趋势(a)和基于地理变量的K-means聚类分区(b)
                  Fig. 2 Sum of squared errors versus cluster number (a) and K-means geographic partitioning based on terrain variables (b)
               3. 2 卷积神经网络                                       致的分辨率。模型主要结构如下: 首先由尺寸 3×3
                   卷积神经网络是一种人工神经网络模型, 在图                         的卷积核、 批标准化、 修正线性单元(Rectified Lin‐
               像和模式识别、 自然语言处理以及语音识别等领域                           ear Unit, ReLU)激活函数以及最大池化层组成卷积
               得到了广泛应用, 其具有独特的特征提取能力, 可                          块, 堆叠卷积块时逐步增加卷积核个数, 分别为
               以自动从输入图像中提取关键的空间特征。本文                             64、 128、 256、 512, 将数据的局部信息转化为高阶
               设计了多个卷积块组成的 CNN 模型(图 3), 将 EC‐                    特征图, 实现对输入数据多层次、 多尺度的特征提
               MWF 预报因子、 临近观测因子和地表特征进行组                          取。再逐步堆叠卷积核尺寸 1×1 的卷积块, 卷积核
               合输入模型, 上述特征已经被上采样至与真值场一                           个数分别为 256、 128、 64、 32, 逐步降低特征图维
   198   199   200   201   202   203   204   205   206   207   208