2. 唐山市资源与环境遥感重点实验室, 河北唐山 063210;
3. 河北省矿区生态修复产业技术研究院, 河北唐山 063210;
4. 矿产资源绿色开发与生态修复协同创新中心, 河北唐山 063210;
5. 延边大学地理与海洋科学学院, 吉林延吉 133002;
6. 河北省地质矿产勘查开发局第八地质大队, 河北秦皇岛 066001
氮元素是土壤中最大的限制性营养元素,在动植物生长、微生物呼吸中有着不可或缺的作用[1]。土壤全氮(TN)含量的高低直接影响滨海湿地生态系统的初级生产力,且对生态系统碳循环等其他生物化学循环有重要影响[2]。滨海湿地是陆地生态系统和海洋生态系统的缓冲区,在净化水体、涵养水源和保持生物多样性等方面有重要作用[3],同时也是全球气候变化和人类活动共同作用下的生态敏感区,生态脆弱性高。人类生产生活排放已经造成滨海湿地氮循环失衡[4],所以准确预测土壤TN含量对生态系统氮循环有重要意义。
传统化学分析方法测定土壤TN含量精度较高,但劳动强度大,人力财力消耗多,且产生大量环境污染[5]。高光谱技术的发展为实现快速、简便、无污染估测土壤各种理化性质提供了新的方法。很多学者通过对原始光谱进行变换、计算光谱指数、筛选敏感波段等方法确定自变量,再基于数学模型对土壤各种理化性质进行估测,如土壤含水量[6]、重金属含量[7]、有机质含量[8]、有机碳含量[9]等,均达到了较好的预测效果。高光谱所含土壤信息丰富,合理选取建模波段对土壤TN含量的准确预测极其重要。刘凡等[10]利用677 nm和1 414 nm波段反射率建立了土壤TN含量模型,但2个波段难以概括全部土壤信息,所建模型有一定的局限性。李焱等[11]选取Pearson相关系数最大的10个波段与土壤TN含量进行建模分析,建模效果得到一定程度的改进。于雷等[12]比较了全波段建模与敏感波段建模,发现虽然基于全波段建模精度要优于敏感波段,但敏感波段建立的模型复杂度远远低于全波段建模。为了包含绝大部分光谱信息,同时尽量降低模型复杂度,筛选敏感波段是必要的。
目前,用于估测土壤理化性质的线性模型有多元线性回归、多元逐步回归和偏最小二乘回归(Partial Least Square Regression,PLSR)等[13-14]。其中,多元线性回归适用于自变量少,且自变量之间相关性较小的情况,对于土壤光谱,波段数较多且波段之间相关性强,所以多元线性回归有一定的局限性[15];多元逐步回归可以筛除干扰变量,选择合适的解释变量回归,但是依然不能解决波段间的共线性问题;而PLSR通过提取主成分的方法可以解决这一问题,且可以实现对全部波段信息的概括,建模效果优于多元线性回归和多元逐步回归[16]。除此之外,机器学习算法中如决策树回归、随机森林回归(Random Forest Regression,RFR)和支持向量机回归(Support Vector Regression,SVR)等具有极强的非线性拟合能力,被广泛应用于土壤性质的估算[17]。决策树回归复杂度低且适用于高维数据,是构建非线性模型的常用方法,但单棵决策树回归容易过拟合,泛化能力差。RFR由多棵决策树集成,改善了单棵决策树的缺点,更加稳定,是高光谱估测土壤理化性质的理想方法[18]。除机器学习外,深度学习也被广泛应用,有学者比较了RFR、SVR和神经网络建模,结果表明RFR优于神经网络和SVR[19]。
滨海湿地土壤受潮汐影响大,海水携带的营养物质多,理化性质更新快,湿地土壤TN含量与内地差异较大。由于野外采样受涨潮影响,采样可达性差,所以基于原始光谱及其多种光谱变换形式的滨海湿地土壤TN含量建模研究较少。基于此,本研究通过PLSR、RFR和SVR三种建模方法结合不同光谱变换构建土壤TN含量的预测模型,分析模型效果优劣,探求可用于滨海湿地土壤TN含量的光谱预测方法,以期为估测滨海湿地土壤TN储量提供方法依据,同时为揭示滨海湿地生态系统氮循环提供帮助。
1 材料与方法 1.1 土样的采集与制备采用环刀法采集133个唐山市和秦皇岛市滨海湿地表层土样(采样深度为0 ~ 20 cm),采样点分布如图 1所示。为减少外界因素对样品TN含量的影响,对所采集的土样进行室内自然风干,剔除异物,碾磨,过100目筛,然后分为2份,分别用于凯氏蒸馏法测定土样TN含量[20]和高光谱数据采集。
土壤TN含量统计特征如表 1所示。土壤TN含量最大值为3.124 g/kg,采集于芦苇湿地;TN含量最小值为0.024 g/kg,采集于海边砂土;TN平均含量为0.733 g/kg,标准差为0.501 g/kg,变异系数为68.5%。133个土样中包含84个粉土和49个砂土,不同质地的土样土壤TN含量平均值有显著差异,粉土TN含量平均值为0.881 g/kg,砂土TN含量平均值为0.478 g/kg。砂粒含量较高的土样TN含量低,粉粒含量高的土样TN含量高[21]。
采用ASD公司生产的FieldSpec4获取土样的高光谱反射率(R),测定范围为350 ~ 2 500 nm,光谱采样间隔在350 ~ 1 000 nm波段范围为1.4 nm,1 000 ~ 2 500 nm波段范围为2 nm,重采样间隔为1 nm。每个样品重复测定10条光谱曲线,并使用光谱仪自带软件ViewSpec Pro取平均值作为该样品原始光谱信息。在光谱采集的过程中会不可避免地受到测试环境、仪器自身的影响,导致光谱曲线噪声较大,因此本研究中对平均后的光谱反射率曲线进行S-G平滑处理得到R,再对R做7种光谱变换:对数(lgR)、对数的一阶微分((lgR)')、倒数(1/R)、倒数的一阶微分((1/R)')、一阶微分(R')、平方根(
本研究对土壤TN含量与光谱反射率及其各种变换形式进行相关性分析,Pearson相关系数范围为–1.0 ~ 1.0,绝对值越大,其相关性越高,波段越敏感;选取相关系数大于0.4的波段,进行P < 0.01水平上的显著性检验,通过显著性检验的波段确定为敏感波段,用于土壤TN含量高光谱模型的估算。
1.3 数据分析方法 1.3.1 偏最小二乘回归(PLSR)PLSR兼顾了多元线性回归、主成分分析和自变量因变量相关性分析3种分析方法的优点,不仅能解决自变量相关性较强的问题,还可以通过提取主成分的方式降低自变量维数,在样本数远小于自变量数的情况下建模。本研究通过判断留一法(leave One Out,LOO)交叉验证的预测均方根误差(Root Mean Square Error of Prediction,RMSEP)确定主因子个数。理想的RMSEP值随主因子个数的增加先递减,达到最低点后随主因子个数的增加出现微小上升或波动。取RMSEP最小时对应的主因子个数建立PLSR模型可有效避免过拟合问题。本研究选择与土壤TN含量相关性强的成分,不考虑全部的自变量,因此建立的模型有更好的鲁棒性。采用R软件中“pls”包完成PLSR建模。
1.3.2 随机森林回归(RFR)RFR是多个决策树集成的学习器,可以高精度地处理大数据集,具有数据适应性强、不易受极大值或极小值的影响即稳定性高等优点,所以模型稳定性比PLSR高。RFR通过对多个决策树的集成融合,输出结果为多棵决策树的平均值。构建RFR模型:
$ \bar h\left( x \right) = \frac{1}{T}\sum\limits_{i = 1}^T {\left\{ {h\left( {x, {\text{ }}{\theta _t}} \right)} \right\}} $ | (1) |
式中:
SVR是一种基于统计学习理论的机器学习技术。SVR使用核函数将数据投影到高维空间,并进行回归。在SVR建模中,选取径向核函数,调整两个参数gamma和cost。其中,cost为惩罚系数,cost过大,容易出现过拟合,cost过小,容易拟合不充分;gamma决定数据映射到高维空间后的分布,gamma越大,支持向量越少,gamma值越小,支持向量越多。本研究利用“caret”包的网格搜索法确定最优参数gamma和cost,采用预测误差最小的参数组合进行最终建模。使用R软件“e1071”包建立SVR模型。
1.3.4 模型精度验证建立土壤TN预测模型,采用LOO交叉验证。模型的评价指标采用预测值与实测值的决定系数(R2)、均方根误差(Root Mean Squared Error,RMSE)和平均绝对误差(Mean Absolute Error,MAE)。其中,RMSE用来衡量观测值同真值之间的偏差;MAE是绝对误差的平均值,能更好地反映预测值误差的实际情况。模型精度评价标准如表 2所示,R2越接近1,拟合效果越好,RMSE、MAE值越小,说明模型估算精度越高。计算公式为:
$ {R^2} = \frac{{\sum\limits_{i = 1}^n {{{\left( {{{\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\frown}$}}{y} }_i} - \bar y} \right)}^2}} }}{{\sum\limits_{i = 1}^n {{{\left( {{y_i} - \bar y} \right)}^2}} }} $ | (2) |
$ {\text{RMSE = }}\sqrt {\frac{{\text{1}}}{n}\sum\limits_{i = 1}^n {{{\left( {{{\hat y}_i} - {y_i}} \right)}^2}} } $ | (3) |
$ {\text{MAE = }}\frac{{\text{1}}}{n}\sum\limits_{i = 1}^n {\left| {{{\hat y}_i} - {y_i}} \right|} $ | (4) |
式中:
由图 2可以看出,研究区土壤样本的原始光谱反射率(R)曲线形态基本一致,各曲线间差异较小,呈曲折上升的弧形,在1 410、1 920、2 210 nm出现3个明显的水分吸收谷。其中,在可见光波段(350 ~ 780 nm)范围内,R迅速上升;除吸收谷外,在近红外波段780 ~ 1 900 nm范围内缓慢上升,各样本光谱间差异较大,至2 100 nm处R达到最大值;在近红外波段2 150 ~ 2 500 nm范围内,R平缓下降。结合野外采样点,砂土样品的R曲线在2 300 ~ 2 400 nm处出现明显吸收谷,此区间是硅酸盐矿物中的水分子羟基(–OH)伸缩振动的合频谱带,由于砂土中硅酸盐矿物含量较大[25],所以在图 2中砂土样品的反射率曲线在2 300 ~ 2 400 nm出现明显吸收谷,与粉土样品曲线出现交叉现象。
由表 3可以看出,R与土壤TN含量有一定的相关性,但相关性较低,两者之间的相关系数在584 nm处达到最大0.547。经7种变换处理后,变换光谱参数与土壤TN含量相关系数均有不同程度的提高,基于简单数学变换的光谱参数1/R、
在利用PLSR建模过程中,经不同光谱变换形式所建立的模型精度:(1/R)' > (lgR)' > R' > 1/(R)' > 1/R >
在利用RFR建模过程中,不同光谱变换形式建模效果:R' > 1/(R)' > (1/R)' > (lgR)' > 1/R >
在利用SVR建模过程中,不同光谱变换形式建模效果:1/(R)' > (1/R)' > R' > (lgR)' > lgR > 1/R >
对R进行7种光谱变换之后,建模R2、RMSE和MAE得到了改善,但不同变换形式所建模型精度差异较大。R和R'、1/R和(1/R)'、lgR和(lgR)'相比,一阶微分变换参数建模效果显著优于未经过一阶微分变换参数。R经一阶微分变换,反射率大小与土壤TN含量之间的关系转化为反射率斜率与土壤TN含量之间的关系,消除了反射率大小中的噪声,所以一阶微分变换参数建模的效果普遍较好。R和1/R、R'和1/R'在3种建模方法中表现相近,说明经简单的倒数运算对光谱信息的挖掘能力较弱。Brunet等[30]、徐永明等[31]也比较了基于微分变换与其他光谱变换所建立的预测模型精度,结果证明,一阶微分变换所建模型精度更高。因此,对R进行合适的光谱变换,对于提高土壤TN含量预测模型的精度和稳定性具有关键作用。
本研究选取敏感波段为自变量,以土壤TN含量为因变量进行PLSR、RFR和SVR,建立R及其7种光谱变换形式对土壤TN含量的预测模型。图 3显示了3种回归方法各自的最优模型的土壤TN含量预测值与实测值的散点图,可以明显看出,SVR模型预测的土壤TN含量与实测值的拟合曲线比PLSR和RFR模型更接近1∶1线,表明实测值与预测值较为接近,模型预测精度更高。
1) 滨海湿地土壤原始光谱反射率与TN含量有较好的相关性,可以用于对土壤TN含量进行估测,而对原始光谱反射率曲线进行变换,可进一步提高光谱反射率与土壤TN含量的相关性,其中提高最明显的变换形式为(1/R)'。微分变换可以有效消除噪音,提高光谱反射率对土壤全氮含量的敏感度,故利用土壤光谱反射率预测土壤TN含量是可行的。
2) 根据光谱反射率及其变换形式建立的PLSR、RFR和SVR模型,每种算法里均有较好的预测模型可以粗略预测土壤TN含量。在PLSR模型中,基于(1/R)'建立的模型预测精度最高,可以粗略预测土壤TN含量;在RFR模型中,基于R'建立的模型可精确预测土壤TN含量;在SVR模型中,基于1/(R)'建立的模型可准确预测土壤TN含量。在建立的模型中,经光谱变换后建立的模型预测精度比基于R建立的模型精度有所提升,故对R变换后建模是科学的。
3) 基于1/(R)'建立的SVR模型R2为0.987,RMSE为0.057 g/kg,MAE为0.050 g/kg,是预测滨海湿地土壤TN含量的最优模型。
[1] |
王莉雯, 卫亚星. 植被氮素浓度高光谱遥感反演研究进展[J]. 光谱学与光谱分析, 2013, 33(10): 2823-2827 (0) |
[2] |
宋长春, 宋艳宇, 王宪伟, 等. 气候变化下湿地生态系统碳、氮循环研究进展[J]. 湿地科学, 2018, 16(3): 424-431 (0) |
[3] |
Kirwan M L, Megonigal J P. Tidal wetland stability in the face of human impacts and sea-level rise[J]. Nature, 2013, 504(7478): 53-60 DOI:10.1038/nature12856 (0) |
[4] |
Socolow R. Fitting on the earth: Challenges of carbon and nitrogen cycle to preserve the habitability of the planet[J]. Engineering, 2016, 2(1): 21-22 DOI:10.1016/J.ENG.2016.01.012 (0) |
[5] |
王红, 刘高焕, 宫鹏. 利用Cokriging提高估算土壤盐离子浓度分布的精度——以黄河三角洲为例[J]. 地理学报, 2005, 60(3): 511-518 (0) |
[6] |
刘焕军, 王翔, 张小康, 等. 松嫩平原主要土壤类型含水量高光谱预测模型[J]. 土壤通报, 2018, 49(1): 38-44 (0) |
[7] |
郭云开, 张思爱, 王建军, 等. 特征变量选择结合SVM的耕地土壤Hg含量高光谱反演[J]. 测绘工程, 2022, 31(1): 17-23 (0) |
[8] |
勾宇轩, 赵云泽, 李勇, 等. 基于CWT-sCARS的东北旱作农田土壤有机质高光谱反演[J]. 农业机械学报, 2022, 53(3): 331-337 (0) |
[9] |
陈秋宇, 杨仁敏, 朱长明. 基于VIS-NIR光谱的互花米草入侵湿地土壤有机碳预测研究[J]. 土壤学报, 2021, 58(3): 694-703 (0) |
[10] |
刘凡, 马玲, 杨光, 等. 灰漠土土壤全氮含量的高光谱特征分析及估测[J]. 新疆农业科学, 2017, 54(1): 140-147 (0) |
[11] |
李焱, 王让会, 管延龙, 等. 基于高光谱反射特性的土壤全氮含量预测分析[J]. 遥感技术与应用, 2017, 32(1): 173-179 (0) |
[12] |
于雷, 洪永胜, 耿雷, 等. 基于偏最小二乘回归的土壤有机质含量高光谱估算[J]. 农业工程学报, 2015, 31(14): 103-109 (0) |
[13] |
涂宇龙, 邹滨, 姜晓璐, 等. 矿区土壤Cu含量高光谱反演建模[J]. 光谱学与光谱分析, 2018, 38(2): 575-581 (0) |
[14] |
尼加提·卡斯木, 师庆东, 郭玉川, 等. 基于EM38和WorldView-2影像的土壤盐渍化建模研究[J]. 土壤, 2019, 51(3): 594-601 (0) |
[15] |
钱佳, 郭云开, 蒋明, 等. 不同类型土壤Cu含量高光谱联合反演建模[J]. 测绘科学, 2020, 45(8): 138-144 (0) |
[16] |
陈红艳, 赵庚星, 李玉环, 等. 消除水分因素影响的野外原状土壤盐分高光谱建模估测[J]. 农业工程学报, 2018, 34(12): 119-125 (0) |
[17] |
张东辉, 赵英俊, 秦凯. 一种新的光谱参量预测黑土养分含量模型[J]. 光谱学与光谱分析, 2018, 38(9): 2932-2936 (0) |
[18] |
王腾军, 方珂, 杨耘, 等. 随机森林回归模型用于土壤重金属含量多光谱遥感反演[J]. 测绘通报, 2021(11): 92-95 (0) |
[19] |
Cui L J, Dou Z G, Liu Z J, et al. Hyperspectral inversion of Phragmites communis carbon, nitrogen, and phosphorus stoichiometry using three models[J]. Remote Sensing, 2020, 12(12): 1998 (0) |
[20] |
鲍士旦. 土壤农化分析(3版)[M].
中国农业出版社, 北京, 2000
(0) |
[21] |
林俊杰, 杨振宇, 刘丹, 等. 干湿交替下三峡支流消落带沉积物粒径组成及氮分布特征[J]. 土壤学报, 2016, 53(3): 602-611 (0) |
[22] |
孙兴亮, 郝晓华, 王建, 等. 基于光谱-环境随机森林回归模型的MODIS积雪面积比例反演研究[J]. 冰川冻土, 2022, 44(1): 147-158 (0) |
[23] |
Song J R, Gao J H, Zhang Y B, et al. Estimation of soil organic carbon content in coastal wetlands with measured VIS-NIR spectroscopy using optimized support vector machines and random forests[J]. Remote Sensing, 2022, 14(17): 4372 (0) |
[24] |
Viscarra Rossel R A, McGlynn R N, McBratney A B. Determining the composition of mineral-organic mixes using UV-vis-NIR diffuse reflectance spectroscopy[J]. Geoderma, 2006, 137(1/2): 70-82 (0) |
[25] |
王惠敏. 基于光谱吸收特征的土壤有机质与重金属含量估算研究[D]. 徐州: 中国矿业大学, 2019.
(0) |
[26] |
殷哲, 雷廷武, 陈展鹏, 等. 近红外传感器测量不同种类土壤含水率的适应性研究[J]. 农业机械学报, 2014, 45(3): 148–151, 190 (0) |
[27] |
殷彩云, 白子金, 罗德芳, 等. 基于高光谱数据的土壤全氮含量估测模型对比研究[J]. 中国土壤与肥料, 2022(1): 9-15 (0) |
[28] |
王海江, 刘凡, Yunger J A, 等. 不同粒径处理的土壤全氮含量高光谱特征拟合模型[J]. 农业机械学报, 2019, 50(2): 195-204 (0) |
[29] |
徐彬彬. 土壤剖面的反射光谱研究[J]. 土壤, 2000, 32(6): 281-287 (0) |
[30] |
Brunet D, Barthès B G, Chotte J L, et al. Determination of carbon and nitrogen contents in Alfisols, Oxisols and Ultisols from Africa and Brazil using NIRS analysis: Effects of sample grinding and set heterogeneity[J]. Geoderma, 2007, 139(1/2): 106-117 (0) |
[31] |
徐永明, 蔺启忠, 黄秀华, 等. 利用可见光/近红外反射光谱估算土壤总氮含量的实验研究[J]. 地理与地理信息科学, 2005, 21(1): 19-22 (0) |
2. Tangshan Key Laboratory of Resources and Environmental Remote Sensing, Tangshan, Hebei 063210, China;
3. Hebei Industrial Technology Institute of Mine Ecological Remediation, Tangshan, Hebei 063210, China;
4. Collaborative Innovation Center of Green Development and Ecological Restoration of Mineral Resources, Tangshan, Hebei 063210, China;
5. College of Geography and Ocean Sciences, Yanbian University, Yanji, Jilin 133002, China;
6. The 8th Geological Brigade of Hebei Bureau of Geology and Mineral Resource Exploration, Qinhuangdao, Hebei 066001, China