Page 254 - 《高原气象》2021年第5期
P. 254
5 期 刘 淳等:1990-2019年中国北方沙区太阳能资源评估 1215
象数据共享网(http://data. cma. cn/),气象站点分 折交叉验证,max_depth 设为 6,eta 设为 0. 5,损失
布见图 1。1990-2015 年平均气温和降水栅格产品 函数设为 reg:squarederror,nrounds 设为 25 时模型
来 源 于 中 国 科 学 院 资 源 环 境 数 据 中 心(http:// 预测效果较为理想。使用另外 8个未参与建模且数
www. resdc. cn/data. aspx?DATAID=228),空间分 据序列完整的辐射站观测数据进行验证,发现 xg‐
辨率为 1 km,该数据集是基于全国 2400 多个气象 boost 算法反演的总辐射值与观测值接近,相关系
站点日观测数据,通过ANUSPLIN软件空间插值处 数(R)为 0. 90~0. 98,均方根误差(RMSE)为 34. 53~
-2
理生成,具有较高的空间分辨率和精度;数字高程 60. 87 MJ·m (图 2)。8 个辐射站预测值与观测值
2
模型(DEM)数据、1970-2000 年平均太阳辐射、气 总体的复相关系数 R 为 0. 92,且拟合曲线斜率为
温、降水月值栅格产品来自于世界气候数据集 0. 998,与 1∶1线基本重合[图 3(a)],平均年总辐射
(WorldClim, https://www. worldclim. org/data/ 量预测值与观测值相对误差仅为 0. 25%~6. 94%。
worldclim21. html),空间分辨率为 1 km。本研究利 因此基于 xgboost 算法的统计反演法可用于计算常
用这些栅格产品作为环境协变量对中国北方沙区 规气象站点的辐射月值。
太阳总辐射量的气候平均值进行空间插值,以提高 2. 3. 3 空间插值
辐射量空间分布的插值精度。 本研究最终使用全部 46 个辐射站数据训练
2. 3 方法介绍 得 到 xgboost 模型估算中国北方沙区 189 个站点
2. 3. 1 xgboost算法 1990-2019 年逐年辐射月值数据。基于此数据集,
由于目前辐射观测站点较少,用于评估太阳能 首先利用趋势分析法得到过去 30 年各站点辐射的
时空分布时不确定性较大。为此,本研究使用统计 年变化率。然后使用 80% 站点的 30 年均值进行空
反演法估算常规气象站点的总辐射量,利用 xg‐ 间插值,用于评估太阳能资源的空间分布。插值方
boost 算法构建总辐射量与协变量间的回归关系, 法采用广义线性回归克里金,用于空间插值的协变
协变量选择以下 10 个(Yang et al,2020):气温、降 量数据包括 WorldClim 辐射产品、温度和降水栅格
水、日照时数、相对湿度、风速、本站气压、潜在蒸 产品、DEM、经度和纬度,考虑变量间的交互作
散发热力项、海拔、经度、纬度,模拟尺度为月。 用,回归残差采用普通克里金重新插值,分辨率为
xgboost 是 eXtreme Gradient Boosting 的缩写,即极 1 km。这里需要注意的是,与时间序列上的插值相
端梯度提升,是一种基于决策树的集成学习算法, 比,在空间插值时所使用的协变量更少,这一方面
所应用的算法就是 GBDT(gradient boosting deci‐ 是因为协变量间存在较强的共线性,变量个数的增
2
sion tree,梯度提升决策树)的改进,既可以用于分 加对模型 R 的提升有限,反而会增加模型的冗余
类也可以用于回归问题(Chen et al,2020)。作为一 度,特别是进行高空间分辨率插值时,计算量较
种高效地机器学习算法,xgboost 及相关的高效梯 大;另一方面,与 DEM、经纬度等相比,相对湿
度决策树算法常被用于气象要素的模拟与预测 度、风速、潜在蒸散发热力项等协变量的插值产品
(Yang et al,2019;刘新伟等,2021)。 本身在空间上具有较大误差,都输入模型中会增加
2. 3. 2 逐年辐射月值估算 总辐射量插值结果的不确定性。经另外未参与建
由于目前气象数据共享网地面辐射数据只更 模的 20% 站点观测值检验,多年平均总辐射量空间
2
新到 2017年,本研究仅使用 1994年 1月至 2017年 1 插值结果与实际观测的复相关系数R 为0. 92,拟合
月(1993 年 前 辐 射 观 测 数 据 误 差 较 大 ,达 10%, 曲线斜率为0. 982,插值结果可信[图3(b)]。
1993 年后仅为 0. 5%)46 个辐射站中的 38 个站辐射 2. 3. 4 太阳能资源评估
月值数据对 xgboost 模型进行训练。模型训练在 R 本文使用日照稳定度、环境温度、总辐射量、
语言环境下使用“xgboost”包完成(https://cran. r- 太阳能资源稳定度,评估沙区太阳能资源的总体状
project. org/web/packages/xgboost/index. html),模 况。其中,日照稳定度和太阳能资源稳定度反应了
型 关 键 特 征 参 数 包 括 每 棵 树 的 最 大 深 度(max_ 太 阳 能 年 内 变 化 的 状 态 和 幅 度(中 国 气 象 局 ,
depth,参数值越大越容易过拟合)、学习率(eta,参 2019),环境温度是衡量太阳能利用装置是否能发
数值越低模型越不容易过拟合,但计算速度会下 挥正常效益的重要参数(冯刚等,2010),总辐射量
降)、最小化损失函数类型(objective,包括 reg: 反应了太阳能资源禀赋,因此基于以上指标可以较
squarederror,reg:logistic,binary:logistic 和 reg: 好地评估某一地区太阳资源的开发潜力。日照稳
gamma等18种)、训练次数(nrounds)。经调参和10 定度用各月日照时数大于 6 h 天数的最大值和最小