2. 北京联合大学应用文理学院, 北京 100083
快速准确地评估盐渍化土壤的理化属性是目前土壤组分研究的热点之一。以往的研究方法存在费时费力、投入成本高等缺点,样点分布往往数量有限,因而对高效地评估土壤盐渍化存在一定的不足[1]。高光谱遥感因其能获得观测对象的连续光谱信息,为高精度定量反演盐渍土信息提供新的途径。
已有研究多是基于可见光-近红外光谱对土壤组分定量研究[2-4],或对盐渍土中的主要离子含量反演[5-6]。例如:使用1 400 ~ 2 450 nm光谱数据构建土壤盐分含量的偏最小二乘回归模型,对甘肃省石羊河流域下游的民勤县进行土壤盐分预测[7];以修复过程的不同阶段盐渍土盐分含量、Na+和Cl–等参数,分析土壤在微生物修复过程中盐分和主要离子含量变化及其光谱响应的最佳波段和特征[8];以新疆作为研究区,对不同地方土样的光谱信息与盐基离子进行分析,建立水溶性盐基离子高光谱反演模型[9]。现有的成果在建模方法上主要有多元线性回归、偏最小二乘回归、神经网络等。例如:利用线性回归和偏最小二乘回归法,构建陕北盐渍土盐分含量定量反演模型[10];基于多元线性回归方法建立位于博斯腾湖西岸湖滨绿洲芦苇地土壤含盐量和主要离子的高光谱估测模型[11];利用多元线性回归和BP人工神经网络建立内蒙古河套灌区盐渍化土壤盐分高光谱预测模型[12]。
已有土样测定多采用室内进行光谱测量,野外实测光谱反演土壤盐分主要离子则较少。本文采用数据挖掘和智能预测算法:随机森林(random forest,RF)、支持向量机(support vector machine,SVM)以及多元线性回归(multiple linear regression,MLR)3种方法构建盐分主要离子的高光谱反演模型,并对3种模型进行比较,选择最优反演模型,为快速获取盐渍土信息提供模型依据,也为干旱区盐渍土治理提供参考。
1 材料与方法 1.1 研究区概况研究区地处天山东段北麓、准噶尔盆地南缘,为典型的荒漠区。该地区属中温带大陆性干旱气候,冬季长、干冷、严寒多雪,夏季短、干热、降水稀少且空间分布不均,年降水量仅164 mm,年蒸发潜力2 000 mm左右。土壤质地为砂质壤土,土壤类型为灰漠土[13]。研究区土地利用类型为荒地、半荒地、弃耕地及部分林地。荒地植被以梭梭、红柳、猪毛菜为主,而林地则多为人工梭梭林、榆树林。
1.2 土壤样本采集及光谱测定2014年7月中旬进行野外采样。根据研究区实地情况,采用网格法,由南向北布设5 ~ 6条采样线覆盖整个区域。采样线间距800 ~ 1 000 m,并且在每条采样线上选择5 ~ 10个能代表该区域土壤背景的采样点,样点间距为300 ~ 500 m(图 1)。采样点覆盖了所有盐分及各种植被的变化范围。用GPS定位并记录相应环境信息,布设样点55个,每个样点每20 cm深度采一个样品至地下1 m,共获得样品275个。土壤光谱主要受表层组分的影响,因此本研究主要对0 ~ 20 cm的土壤盐分离子进行分析。
采用美国ASD FieldSpec®3Hi-Res便携式光谱仪进行野外高光谱数据采集,光谱有效范围350 ~ 2 500 nm,分析软件使用ASD View Spec Pro。试验时间为当地11:00—15:00,天气晴朗少云、无风,采集光谱前对光谱仪进行白板校正。在每个样点周围1 m范围内选取5个土壤背景相近的位置采用25°视场角探头,且距土壤表面15 cm处垂直角度进行光谱采集,每个位置重复测量10次,获得50条光谱曲线后取平均值作为该采样点的实测光谱曲线。
1.3 土壤光谱数据预处理首先采用Savitzky-Golay平滑法对光谱数据进行光滑处理,消除噪声产生的误差[14]。其次,为扩大样品之间的光谱特征差异[15],利于模型的建立,对经过平滑后的原始数据进行一阶导变换处理[16]。
1.4 土壤盐分离子光谱响应分析由于土壤的光谱反射特性是土壤理化特征内在的光谱反映[17],故本文将55个土壤样品分别依照盐分主要离子(Na+、Cl–、Ca2+)含量进行聚类分析,并计算出每一类含量的光谱均值,以得到上述土壤主要盐离子的光谱响应范围。
1.5 土壤盐分离子特征光谱分析以光谱响应分析为基础,对样本的土壤盐分及主要离子含量与光谱反射率一阶导数进行逐波段的相关性分析,计算相关系数,按照相关系数高且显著的原则,选择各自的敏感波段作为特征波段,再选取特征波段中具有最大相关系数的波段作为显著特征波段[18]。
1.6 估测模型构建与验证基于联合X-Y距离的样本集划分算法(SPXY)在预测复杂体系时表现出一定的优点[19]。本文将55个样本分成两组,37个作为建模集,18个作为检验集。基于特征波段及显著特征波段,选择多元线性回归(MLR)、支持向量机(SVM)和随机森林(RF)法建立土壤盐分离子含量的反演模型。以MLR模型为对照,用非线性的SVM和RF模型与对照进行对比。而后用18个验证样本对构建的模型进行检验,模型估测精度通过决定系数(R2)、均方根误差(RMSE)、相对分析误差(RPD)3个指标来衡量[20]。R2越大,RMSE越小,表明模型的精度越高。RPD > 2表示模型表现较好;RPD=1.4 ~ 2表示模型可大概预测;RPD < 1.4表示模型表现较差,无法估测[21]。
MLR是一种常用的线性拟合方法,是农学数学分析常用的方法。本研究对土壤光谱数据进行多元线性回归,设定变量方差贡献显著水平为0.05,作为选入变量的依据,建立盐分主要离子与特征光谱的预测模型。
SVM包括支持向量分类(SVC)和支持向量回归(SVR),是基于结构风险最小,较好地解决非线性、小样本等实际问题的一种机器学习法。用回归函数及拟合数据完成对线性可分数据的最优分类,将输入量映射到一个高维特征空间中计算最优分类面[22]。本研究首先把光谱数据归一化,而后将其作为SVM回归的限制条件,将盐分主要离子含量作为决策项。设定SVM类型为4(即v-SVR),核函数类型为2(即RBF函数),利用训练集交叉验证和网格搜索法(grid search)来做参数寻优,根据均方差最小原则确定惩罚系数C和RBF核参量g的值。
RF是一种基于分类树思想的统计分析法,它基于自助法(bootstrap)从原始样本中抽取多个样本,对每个样本进行决策树建模,最终对所有决策树的预测值平均后作为输出值[23]。采用RF在55个样本基础上构建土壤盐分离子含量的高光谱估测模型,自变量是盐分离子的特征波段,因变量是土壤盐分离子含量。
2 结果与分析 2.1 土壤盐分及其主要离子含量统计特征及相关性分析研究区表层土壤盐分变化幅度较大,而主要离子Cl–、Na+、Ca2+含量的变化幅度较低(表 1)。根据《新疆土壤》对土壤盐碱化进行分级:非盐化(< 3 g/kg)、轻盐化(3 ~ 6 g/kg)、中盐化(6~ 10 g/kg)、重盐化(10 ~ 20 g/kg)、盐土(> 20 g/kg)[24]。由均值看,该区土壤属于盐土。变异系数(CV)表示离散程度,CV > 1表示强变异,CV=0.1 ~ 1表示中等变异,CV < 0.1表示弱变异[25]。土壤盐分、Na+、Ca2+均属于中等变异,而Cl–呈强变异,其含量波动较大,分布离散。
在P < 0.01显著水平时,盐分与Na+、Cl–、Ca2+均呈显著相关,但与前两者相关系数分别达到0.978和0.814,而其与Ca2+的相关系数相对较小,为0.645。盐分离子之间,Cl–与Na+亦显著相关,相关系数为0.833;而Ca2+与Na+、Cl–的相关性均小于0.6(表 2)。该区土壤以钠型盐氯化物为主。
根据含盐量,对采集的样本进行聚类分析,共聚类为5个类别,每类各离子含量对应的土壤光谱曲线如图 2。不同Cl–含量土壤光谱特征表现为:5条光谱曲线较为相似,在波长350 ~ 600 nm光谱反射率比较低,随波长的增大反射率迅速增大;在波长大于600 nm后,反射率差异增大,表现出随着Cl–含量增加,光谱反射率增大,且在波长1 370 ~ 1 505、2 170 ~ 2 304 nm附近土壤光谱曲线有所波动,在波长2 200 nm之后,反射率整体呈递减趋势,与已有研究基本一致[26-27]。其中,波长1 800 ~ 2 000 nm区间处于水汽吸收带的位置,对水分信息反映敏感[28],因此此区域的光谱曲线出现了较大的浮动,其数据不宜参与土壤盐分离子含量的高光谱建模。不同Na+含量土壤光谱特征表现为:总体趋势与Cl–相似,在波长1 374 ~ 1 499 nm区间反射率差异增大,在波长2 165 ~ 2 324 nm波动剧烈。不同Ca2+含量土壤光谱特征表现为:除最高含量外,其余光谱反射率区别较小,光谱响应与Cl–和Na+相比不显著,但在波长1 355 ~ 1 495、2 175 ~ 2 314 nm亦有相对明显的吸收谷。
综上,土壤盐分主要离子(Cl–、Na+、Ca2+)含量的光谱曲线整体形态和趋势具有相似性,并且它们的光谱响应谱区位置相近并且有交叉的现象。
2.3 土壤光谱一阶导数与盐分离子含量的相关分析土壤盐分主要离子含量与土壤光谱反射率一阶导数的各相关性在曲线表现上比较一致,相关性较好的波段范围也比较相近,同时也存在交叉现象(图 3),说明主要盐分离子的土壤光谱特征具有相似性[18]。土壤盐分主要离子与光谱反射率一阶导数的相关关系曲线变化较大,但波长350 ~ 700 nm,二者大部分呈正相关,相关系数最高值出现,且大于原始光谱与土壤盐分主要离子的相关性。这进一步说明土壤光谱反射率曲线经过一阶导数变换提高了相关性。
在P < 0.01显著水平下,Cl–含量与459、537、652、1 377、1 381、1 386 nm波长下的反射率一阶导数显著相关,Na+含量与459、537、1 377、1 381、1 386、1 640 nm波长下的反射率一阶导数显著相关,Ca2+含量与459、537、652、1 381、1 386、1 640 nm波长下的反射率一阶导数显著相关。并且,Cl–和Na+含量与敏感波段对应光谱的极值相关系数(r)均大于0.80,而Ca2+的极值相关系数仅为0.58,Cl–和Na+含量与土壤光谱相关性较高,而Ca2+含量与土壤光谱的相关性则相对较差(表 3)。选取盐分主要离子在敏感波段中出现频率最高(交叉集中)且通过了P < 0.01显著性水平检验的459、537、1 381、1 386 nm作为特征波段。由于在350 ~ 650 nm波长盐分主要离子与光谱的相关性较好,其中在459 nm相关系数最高,其次是537 nm,根据相关性高且显著的原则结合光谱响应特征,选取相关系数较高的459、537 nm作为显著特征波段。
将特征波段区间、显著特征波段所在的土壤光谱曲线一阶导数当作自变量输入,利用MLR、SVM、RF法建立土壤盐分主要离子含量的反演模型,然后利用验证数据集对反演模型精度检验和对比(表 4)。就Cl–含量而言,基于4个特征光谱构建的反演模型Rc2为0.81 ~ 0.91、RMSE为0.83 ~ 0.96,Rv2为0.75 ~ 0.78、RMSE为1.23 ~ 2.01,RPD达1.76 ~ 1.92;基于2个显著特征光谱构建的模型Rc2为0.82 ~ 0.89、RMSE为0.75 ~ 1.00,Rv2为0.73 ~ 0.80、RMSE为1.04 ~ 1.94,RPD达1.87 ~ 2.11;两模型精度相差不大。Na+和Ca2+含量反演模型精度相差也不大,这说明不受建模方法影响,选择两个显著特征波段(459和537 nm)的反演模型与基于4个特征波段的模型比,最终的反演结果相近且实用性更强。因此,459和537 nm可作为显著特征波段输入取代4个特征波段输入进行土壤盐分主要离子的高光谱反演建模。
在相同参数和同等计算效率模式下,比较3种反演建模方法可以发现,采用RF法建立的Cl–、Na+和Ca2+含量模型Rc2为0.77 ~ 0.91,Rv2为0.57 ~ 0.81,RPD为1.77 ~ 2.11,精度较其他方法高,其次是SVM模型,MLR模型精度最低。RF模型可以较好地预测主要盐分离子,尤其对Cl–含量的预测精度最高,其次是Na+,但其对Ca2+的定量估测精度略低,RPD为1.77。
综上,在459和537 nm波段利用光谱一阶导数建立的RF模型对土壤主要盐分离子含量的预测最为精准可靠。在RF模型预测值和实测值的散点图中可以看出,预测值较均匀分布在1︰1线的两侧,说明二者呈现出相对较好的线性关系,模型精度可靠(图 4)。
目前已有较多研究利用可见光–近红外光谱对土壤属性进行估测,但大多研究是在室内或田间尺度上进行,例如:采用卤素灯作为光源,对土壤进行室内光谱测试与采集,估测土壤盐分、水分、钾及有机质的含量[29-31];在农田尺度上,获得田间土壤的光谱,对盐渍土含水量和含盐量进行反演[32-33]。这些研究在区域尺度上的应用仍有很多的局限性。本研究突破室内卤素灯作为光源或田间小尺度,通过建模,用直接在野外测得的土壤高光谱数据模拟预测土壤盐分离子含量,不仅使研究扩展至较大的区域尺度,而且更加贴近野外实际土壤自然特征,为干旱区土壤盐渍化信息反演提供了案例[18]。
本研究结合光谱响应特征及相关性分析分别选取土壤主要离子(Cl–、Na+和Ca2+)的特征波段,根据极值相关系数确定2个显著特征波段(459和537nm)均在可见光范围内,而已有研究中选取的特征波段多集中在近红外波段范围内[34]。但也有学者研究基于野外土壤光谱测量,其选取的敏感波段与本研究较为接近[35-36]。差异的原因可能与采集光谱的场合有关,野外测得的光谱数据易受外界多种干扰的影响,而在暗室采集的光谱则受影响因素较少[18]。
本研究土壤盐分及其主要离子含量的预测模型精度RF > SVM > MLR。RF模型是非线性,过度拟合的情况较少;SVM模型在高维空间求最优结果,其径向基核函数在土壤盐渍化反演模型中效果较好;而MLR模型仅能推测入选变量和因变量之间的关系,具有一定的局限性。
4 结论1) 研究区土壤Cl–、Na+含量与土壤光谱之间的相关性表现较好,但Ca2+含量与其相关性则表现较差;基于相关分析结合光谱响应特征,确定盐分离子(Cl–、Na+和Ca2+)的4个交叉波段(459、537、1 381、1 386 nm)为研究区主要盐分离子的特征波段,而其中具有极值相关系数的459和537 nm作为显著特征波段。
2) 基于2个显著特征波段建立的模型与基于4个特征波段建立的模型相差较小,表明前者对土壤离子定量预测具有较强适用性。3种方法中,RF模型预测结果最好,其次是SVM,MLR精度最低。无论采用何种模型,Cl–和Na+含量的反演模型精度均比较好而且模型表现比较稳定,而Ca2+含量只有RF模型可用于一定程度的估测。
3) 研究区土壤盐分主要离子的最佳高光谱预测模型为基于显著特征波段(459和537 nm的反射率一阶导数)的RF模型,其预测Cl–、Na+和Ca2+的RPD分别达到2.11、2.03、1.80,可以对前两者的含量进行很好的估测。这为今后区域尺度的土壤盐分主要离子估算和遥感监测快速获取盐渍土信息提供了良好的支撑。
[1] |
刘亚秋, 陈红艳, 王瑞燕, 等. 基于可见/近红外光谱的黄河口区土壤盐分及其主要离子的定量分析[J]. 中国农业科学, 2016, 49(10): 1925-1935 DOI:10.3864/j.issn.0578-1752.2016.10.009 (0) |
[2] |
吕杰, 郝宁燕, 崔晓临. 利用可见光近红外的尾矿区农田土壤Cu含量反演[J]. 农业工程学报, 2015, 31(9): 265-270 (0) |
[3] |
李雪莹, 范萍萍, 侯广利, 等. 可见-近红外光谱的土壤养分快速检测[J]. 光谱学与光谱分析, 2017, 37(11): 3562-3566 (0) |
[4] |
张瑶, 李民赞, 郑立华, 杨玮. 基于近红外光谱分析的土壤分层氮素含量预测[J]. 农业工程学报, 2015, 31(9): 121-126 (0) |
[5] |
厉彦玲, 赵庚星, 常春艳, 等. OLI与HSI影像融合的土壤盐分反演模型[J]. 农业工程学报, 2017, 33(21): 173-180 DOI:10.11975/j.issn.1002-6819.2017.21.020 (0) |
[6] |
张贤龙, 张飞, 张海威, 等. 基于光谱变换的高光谱指数土壤盐分反演模型优选[J]. 农业工程学报, 2018, 34(1): 110-117 (0) |
[7] |
庞国锦, 王涛, 孙家欢, 等. 基于高光谱的民勤土壤盐分定量分析[J]. 中国沙漠, 2014, 34(4): 1073-1079 (0) |
[8] |
马创, 申广荣, 支月娥, 等. 修复过程中盐渍化土壤的光谱特征分析[J]. 光谱学与光谱分析, 2015(9): 2602-2608 (0) |
[9] |
代希君, 张艳丽, 彭杰, 等. 土壤水溶性盐基离子的高光谱反演模型及验证[J]. 农业工程学报, 2015, 31(22): 139-145 DOI:10.11975/j.issn.1002-6819.2015.22.019 (0) |
[10] |
李晓明, 王曙光, 韩霁昌. 基于PLSR的陕北土壤盐分高光谱反演[J]. 国土资源遥感, 2014, 26(3): 113-116 (0) |
[11] |
宋梦洁, 李新国, 刘彬. 博斯腾湖西岸湖滨绿洲芦苇地土壤特征分析[J]. 西北农业学报, 2016, 25(3): 435-441 (0) |
[12] |
刘全明, 成秋明, 王学, 等. 河套灌区土壤盐渍化微波雷达反演[J]. 农业工程学报, 2016, 32(16): 109-114 DOI:10.11975/j.issn.1002-6819.2016.16.016 (0) |
[13] |
马利芳, 熊黑钢, 王宁, 等. 不同干扰程度下土壤盐分和有机质空间变异特征[J]. 环境工程, 2019, 37(2): 179-183 (0) |
[14] |
Savitzky A, Golay M J E. Smoothing and differentiation of data by simplified least squares procedures[J]. Analytical Chemistry, 1964, 36(8): 1627-1639 DOI:10.1021/ac60214a047 (0) |
[15] |
安德玉, 赵庚星, 常春艳, 等. 基于野外高光谱的黄河三角洲滨海盐渍土盐分含量估测研究[J]. 土壤通报, 2015, 46(4): 843-850 (0) |
[16] |
陈红艳, 赵庚星, 李希灿, 等. 小波分析用于土壤速效钾含量高光谱估测研究[J]. 中国农业科学, 2012, 45(7): 1425-1431 (0) |
[17] |
谢伯承, 薛绪掌, 刘伟东, 等. 基于包络线法对土壤光谱特征的提取及其分析[J]. 土壤学报, 2005, 42(1): 171-175 DOI:10.3321/j.issn:0564-3929.2005.01.029 (0) |
[18] |
马利芳.盐渍化土壤盐分和有机质含量的空间变异性及其光谱估算[D].乌鲁木齐: 新疆大学, 2019. http://cdmd.cnki.com.cn/Article/CDMD-10755-1019608790.htm
(0) |
[19] |
朱向荣.基于可见/近红外光谱法与最小二乘支持向量机用于预测杉树的密度[C]//中国化学会计算机化学专业委员会.第十届全国计算(机)化学学术会议论文摘要集.杭州, 2009.
(0) |
[20] |
李萍, 赵庚星, 高明秀, 等. 黄河三角洲土壤含水量状况的高光谱估测与遥感反演[J]. 土壤学报, 2015, 52(6): 1262-1272 (0) |
[21] |
Rossel R A V, Mcglynn R N, Mcbratney A B. Determining the composition of mineral-organic mixes using UV-visNIR diffuse reflectance spectroscopy[J]. Geoderma, 2006, 137(1): 70-82 (0) |
[22] |
Karimi Y, Prasher S O, Madani A, et al. Application of support vector machine technology for the estimation of crop biophysical parameters using aerial hyperspectral observations[J]. Canadian Biosystems Engineering, 2008, 13 (0) |
[23] |
王云飞, 庞勇, 舒清态. 基于随机森林算法的橡胶林地上生物量遥感反演研究——以景洪市为例[J]. 西南林业大学学报, 2013(6): 38-45 DOI:10.3969/j.issn.2095-1914.2013.06.007 (0) |
[24] |
马利芳, 熊黑钢, 王宁, 等. 不同深度土壤盐分和有机质含量的空间变异特征[J]. 江苏农业科学, 2019, 47(16): 264-270 (0) |
[25] |
高灯州, 闵庆文, 陈桂香, 等. 联合梯田农业文化遗产稻田土壤养分空间变异特征[J]. 生态学报, 2016, 36(21): 6951-6959 (0) |
[26] |
Ling W Y, Peng G, Berkeley, et al. A spectral index for estimating soil salinity in the yellow river delta region of China using EO-1 hyperion data[J]. Pedosphere, 2010, 20(3): 378-388 DOI:10.1016/S1002-0160(10)60027-6 (0) |
[27] |
王丽娜, 朱西存, 刘庆, 等. 黄河三角洲盐碱土盐分的高光谱定量估测研究[J]. 土壤通报, 2013(5): 1101-1106 (0) |
[28] |
陈祯. 不同土壤含水率、体积质量及光谱反射率的关系模型[J]. 农业工程学报, 2012, 28(4): 76-81 DOI:10.3969/j.issn.1002-6819.2012.04.012 (0) |
[29] |
刘秀英, 石兆勇, 常庆瑞, 等. 黄绵土钾含量高光谱估算模型研究[J]. 土壤学报, 2018, 55(2): 325-337 (0) |
[30] |
刘娅, 潘贤章, 王昌昆, 等. 基于差异化光谱指数的盐渍土水分含量预测——以滨海盐土为例[J]. 土壤, 2016, 48(2): 381-388 (0) |
[31] |
向红英, 柳维扬, 彭杰, 等. 基于连续统去除法的南疆水稻土有机质含量预测[J]. 土壤, 2016, 48(2): 389-394 (0) |
[32] |
卢艳丽, 白由路, 王磊, 等. 农田不同粒级土壤含水量光谱特征及定量预测[J]. 中国农业科学, 2018, 51(9): 1717-1724 (0) |
[33] |
王海江, 张花玲, 任少亭, 等. 基于高光谱反射特性的土壤水盐状况预测模型研究[J]. 农业机械学报, 2014, 45(7): 133-138 (0) |
[34] |
池涛, 曹广溥, 李丙春, 等. 基于高光谱数据和SVM方法的土壤盐渍度反演[J]. 山东农业大学学报(自然科学版), 2018(4): 1-5 (0) |
[35] |
王凯龙, 熊黑钢, 张芳. 基于高光谱数据预测土壤碱化程度最佳模型及其影响因素的研究[J]. 土壤, 2014, 46(3): 544-549 (0) |
[36] |
Lee S, Choi H, Cha K, et al. Random forest as a potential multivariate method for near-infrared (NIR) spectroscopic analysis of complex mixture samples:Gasoline and naphtha[J]. Microchemical Journal, 2013, 110(9): 739-748 (0) |
2. College of Applied Arts and Sciences, Beijing Union University, Beijing 100083, China