Page 254 - 《高原气象》2021年第5期
P. 254

5 期                       刘  淳等:1990-2019年中国北方沙区太阳能资源评估                                    1215
               象数据共享网(http://data. cma. cn/),气象站点分               折交叉验证,max_depth 设为 6,eta 设为 0. 5,损失
               布见图 1。1990-2015 年平均气温和降水栅格产品                      函数设为 reg:squarederror,nrounds 设为 25 时模型
               来 源 于 中 国 科 学 院 资 源 环 境 数 据 中 心(http://           预测效果较为理想。使用另外 8个未参与建模且数
               www. resdc. cn/data. aspx?DATAID=228),空间分         据序列完整的辐射站观测数据进行验证,发现 xg‐
               辨率为 1 km,该数据集是基于全国 2400 多个气象                      boost 算法反演的总辐射值与观测值接近,相关系
               站点日观测数据,通过ANUSPLIN软件空间插值处                         数(R)为 0. 90~0. 98,均方根误差(RMSE)为 34. 53~
                                                                            -2
               理生成,具有较高的空间分辨率和精度;数字高程                            60. 87 MJ·m (图 2)。8 个辐射站预测值与观测值
                                                                                    2
               模型(DEM)数据、1970-2000 年平均太阳辐射、气                     总体的复相关系数 R 为 0. 92,且拟合曲线斜率为
               温、降水月值栅格产品来自于世界气候数据集                              0. 998,与 1∶1线基本重合[图 3(a)],平均年总辐射
              (WorldClim, https://www.    worldclim.  org/data/  量预测值与观测值相对误差仅为 0. 25%~6. 94%。
               worldclim21. html),空间分辨率为 1 km。本研究利               因此基于 xgboost 算法的统计反演法可用于计算常
               用这些栅格产品作为环境协变量对中国北方沙区                             规气象站点的辐射月值。
               太阳总辐射量的气候平均值进行空间插值,以提高                            2. 3. 3  空间插值
               辐射量空间分布的插值精度。                                         本研究最终使用全部 46 个辐射站数据训练
               2. 3  方法介绍                                        得 到 xgboost 模型估算中国北方沙区 189 个站点
               2. 3. 1  xgboost算法                                1990-2019 年逐年辐射月值数据。基于此数据集,
                   由于目前辐射观测站点较少,用于评估太阳能                          首先利用趋势分析法得到过去 30 年各站点辐射的
               时空分布时不确定性较大。为此,本研究使用统计                            年变化率。然后使用 80% 站点的 30 年均值进行空
               反演法估算常规气象站点的总辐射量,利用 xg‐                           间插值,用于评估太阳能资源的空间分布。插值方
               boost 算法构建总辐射量与协变量间的回归关系,                         法采用广义线性回归克里金,用于空间插值的协变
               协变量选择以下 10 个(Yang et al,2020):气温、降                量数据包括 WorldClim 辐射产品、温度和降水栅格
               水、日照时数、相对湿度、风速、本站气压、潜在蒸                           产品、DEM、经度和纬度,考虑变量间的交互作
               散发热力项、海拔、经度、纬度,模拟尺度为月。                            用,回归残差采用普通克里金重新插值,分辨率为
               xgboost 是 eXtreme Gradient Boosting 的缩写,即极        1 km。这里需要注意的是,与时间序列上的插值相
               端梯度提升,是一种基于决策树的集成学习算法,                            比,在空间插值时所使用的协变量更少,这一方面
               所应用的算法就是 GBDT(gradient boosting deci‐             是因为协变量间存在较强的共线性,变量个数的增
                                                                           2
               sion tree,梯度提升决策树)的改进,既可以用于分                      加对模型 R 的提升有限,反而会增加模型的冗余
               类也可以用于回归问题(Chen et al,2020)。作为一                   度,特别是进行高空间分辨率插值时,计算量较
               种高效地机器学习算法,xgboost 及相关的高效梯                        大;另一方面,与 DEM、经纬度等相比,相对湿
               度决策树算法常被用于气象要素的模拟与预测                              度、风速、潜在蒸散发热力项等协变量的插值产品
              (Yang et al,2019;刘新伟等,2021)。                       本身在空间上具有较大误差,都输入模型中会增加
               2. 3. 2  逐年辐射月值估算                                 总辐射量插值结果的不确定性。经另外未参与建
                   由于目前气象数据共享网地面辐射数据只更                           模的 20% 站点观测值检验,多年平均总辐射量空间
                                                                                                  2
               新到 2017年,本研究仅使用 1994年 1月至 2017年 1                 插值结果与实际观测的复相关系数R 为0. 92,拟合
               月(1993 年 前 辐 射 观 测 数 据 误 差 较 大 ,达 10%,            曲线斜率为0. 982,插值结果可信[图3(b)]。
               1993 年后仅为 0. 5%)46 个辐射站中的 38 个站辐射                 2. 3. 4  太阳能资源评估
               月值数据对 xgboost 模型进行训练。模型训练在 R                          本文使用日照稳定度、环境温度、总辐射量、
               语言环境下使用“xgboost”包完成(https://cran. r-              太阳能资源稳定度,评估沙区太阳能资源的总体状
               project. org/web/packages/xgboost/index. html),模  况。其中,日照稳定度和太阳能资源稳定度反应了
               型 关 键 特 征 参 数 包 括 每 棵 树 的 最 大 深 度(max_            太 阳 能 年 内 变 化 的 状 态 和 幅 度(中 国 气 象 局 ,
               depth,参数值越大越容易过拟合)、学习率(eta,参                      2019),环境温度是衡量太阳能利用装置是否能发
               数值越低模型越不容易过拟合,但计算速度会下                             挥正常效益的重要参数(冯刚等,2010),总辐射量
               降)、最小化损失函数类型(objective,包括 reg:                    反应了太阳能资源禀赋,因此基于以上指标可以较
               squarederror,reg:logistic,binary:logistic 和 reg:  好地评估某一地区太阳资源的开发潜力。日照稳
               gamma等18种)、训练次数(nrounds)。经调参和10                   定度用各月日照时数大于 6 h 天数的最大值和最小
   249   250   251   252   253   254   255   256   257   258   259