主题:【分享】近红外光谱分析与化学计量学方法

浏览0 回复0 电梯直达
Ins_29253308
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
近红外光谱技术发展初期,由于数据处理方法的局限性,难以分离或提取近红外重叠谱峰中的有用光谱信息,其光谱数据可利用率低,导致该技术不受重视,一度进入沉默期。20世纪60年代以来,Norris利用近红外光谱技术在农产品品质分析中做了大量的工作,利用多元线性回归建立定标模型,但仍无法提取与物质成分含量相关的光谱信息,并给予合理的光谱解析。此外,也难以合理解释样品大小及颗粒度等影响所导致的光谱不稳定性。因此,近红外光谱技术被称为“黑匣子”技术。

直到20世纪80年代,化学计量学迅速发展,多元校正及模型识别等方法被逐步引入到近红外光谱解析和定标模型建立中,使得近红外光谱技术真正达到了定标理论与实践的统一,并推动了近红外光谱技术和化学计量学的并肩发展。目前,化学计量学是近红外光谱技术密不可分的一部分,主要包括光谱预处理方法、变量选择方法、定性定量建模方法、异常值的统计识别与模型优化方法、以及模型传递方法。

一、样品的分组方法及选择标准

代表性样品的选取对于建立良好的定量定性模型非常重要。在获取代表性样品后,通常需要将样品分为校正集和验证集。对于样品的分组,常用的方法主要有Kennard-StoneK-S)方法和SPXY方法。K-S方法主要是基于光谱变量之间的欧式距离,在特征空间中均匀选取样品,但样品选取时没有考虑样品浓度的影响。SPXY方法在K-S方法的基础上提出,综合考虑了样品光谱和浓度的距离进行样品选取。

对于校正集和验证集样品,其选择需要满足一定的参考标准。如校正集中的样品需要有较广的浓度范围,能覆盖待测样品可能出现的浓度范围,以保证待测样品的预测是通过模型内插分析而获得。此外,当建模所用的变量数为K(K>3)时,校正集样品的数量一般要不少于6K。详细的校正集和验证集样品选择标准请参考国家标准GB/T 29858-2013

二、光谱预处理方法

近红外光谱除了含有样品本身的物理结构与化学成分信息外,还会引入由仪器暗电流、样品背景与状态、杂散光、环境变化等因素引起的各类光谱噪声。因此,在建模分析前,需要对所采集的近红外光谱数据进行预处理,以尽可能地消除光谱噪声的影响。按光谱预处理方法的作用分,主要为基线校正、散射校正、平滑校正及尺度缩放四类。

基线校正方法主要包括一阶导数、二阶导数及小波变换Wavelet transformWT等。一阶导数主要用于消除光谱基线的平移,二阶导数主要用于消除光谱基线的漂移。小波变换则是通过扣除原始光谱信号的低频成分实现基线校正。散射校正方法主要包括多元散射校正Multiplicative scatter correctionMSC和标准正态变量变换Standard normal variate transformSNV,主要用于消除由于颗粒大小和分布均匀度不同所产生的散射对光谱的影响。平滑校正方法主要包括移动平均平滑、Savitzky-Golay卷积平滑、高斯滤波Gaussian filter平滑、中值滤波Median filter平滑等,用于降低光谱的随机噪声,提高光谱信噪比。尺度缩放方法主要包括中心化变换Mean centering标准化变换(Auto scaling)、最大最小归一化(Min-max scaling)、Pareto尺度化等,用于消除尺度差异过大带来的影响。

三、光谱变量选择方法

近红外光谱数据变量众多,往往有几百甚至上千个波长变量,存在着严重的数据冗余,直接利用所有变量来建模分析,会造成模型的过拟合,使模型的稳定性变差。因此,需要采用变量选择方法剔除冗余波长变量,筛选有用的特征波长变量。目前,变量选择方法主要有基于波长点的变量选择方法和基于波长区间的变量选择方法。

基于波长点的变量选择方法是将每一个波长作为一个变量,获取一系列的波长变量子集,并从变量子集中选择最优的波长变量组合。常用的变量选择方法[6]主要有无信息变量消除(UVE)、连续投影算法(SPA)、遗传算法(GA)、竞争性自适应重加权采样(CARS[17]、变量投影重要性(VIP[18]、模拟退火算法(SA)、粒子群优化算法(PSO)、蚁群优化算法(ACO)、迭代保留有效变量(IRIV[19]、自举柔性收缩算法(BOSS[20]等。

基于波长区间的变量选择方法是将光谱波长区间作为一个处理单元(变量),获取一系列波长区间的组合,从中选择最优的波长区间组合。常用的变量选择方法主要有区间偏最小二乘(iPLS)、前向偏最小二乘(fiPLS)、反向偏最小二乘(biPLS)、区间组合偏最小二乘(siPLS)、移动窗偏最小二乘(MWPLS)、区间组合优化法(ICO[21]及区间蛙跳算法(iRF[22]等。其中,fiPLSbiPLSsiPLSICOiRF方法是iPLS的衍生算法。

四、建模方法

近红外光谱分析技术是一种间接分析技术,其成功应用依赖于良好的定性/定量分析模型。近红外光谱分析中,建模方法主要分为定量建模方法和定性建模方法两大类。常用的定量建模方法[6]主要有多元线性回归(Multiple linear regressionMLR)、主成分回归(Principle component regressionPCR)、偏最小二乘回归(Partial least squares regressionPLSR)、人工神经网络(Artificial neural networkANN)、支持向量机回归(Support vector regressionSVR)、最小二乘支持向量机回归(Least squares support veotor regressionLSSVR)、核偏最小二乘(kernel partial least squaresKPLS)、极限学习机(Extreme learning machine, ELM[23]等。其中,MLRPCRPLSR均是基于线性回归的定量建模方法,而ANNSVRLSSVRKPLSELM则是基于非线性回归的定量建模方法。

定性建模方法主要分为无监督和有监督的模式识别方法两类。无监督的模式识别方法是一种事先对未知类别的样品分类,无需训练的分类方法。常用方法主要有最小生成树、K均值聚类分析、系统聚类分析、模糊聚类法及自组织神经网络(Self-organizing neural networkSONN[24]。有监督的模式识别方法是利用已知类别的样本作为训练集,通过已知样本的训练和学习构建分类器。常用方法主要有最小距离判别、K最近邻法、线性判别分析(Linear discriminant analysisLDA)、势函数判别法、簇类独立软模式方法(Soft independent modeling of class analogySIMCA)、ANN及支持向量机分类(Support vector classificationSVC)等。

五、异常值识别与模型优化方法

异常样品对模型的稳健性会产生严重的干扰,在建模过程中需要进行剔除。异常样品一般分为两大类,第一类是高杠杆值样品,其光谱远离整体样品的平均光谱;第二类是预测值与参考值具有显著差异的样品,由参考值测量误差大、光谱测量误差大、参考值录入错误及模型不适用等原因造成。对于定量分析,一般可以采用马氏距离和杠杆值剔除第一类异常样品,利用学生化残差剔除第二类异常样品。对于定性分析,常采用Hotellings T2检验或F检验进行异常样品(光谱)的剔除。

在剔除异常样品后,需要对模型进行优化,即选择合适的主成分或变量数建立模型。若所用的主成分或变量数过少,则可能未能充分利用信息,模型会欠拟合,导致模型预测精度下降;而主成分或变量数过多,则可能引入噪声,导致模型过拟合,使得模型稳定性变差。在实际建模中,一般采用交互验证方法进行模型优化,并根据交互验证误差(SECVRMSECV)或预测残差平方和(PRESS)最小来确定适宜的主成分或变量数。

在模型优化后,需要采用验证集样品对模型的有效性进行验证。验证集样品的选取一般要符合一定的要求。对于定量分析,一般采用验证标准误差(SEV)对校正模型有效性进行验证。对于定性分析,通常采用判别正确率对类模型的有效性进行验证。

具体的异常值识别、模型优化与有效性验证方法及验证样品选取标准参见国家标准GB/T 29858-2013GB/T37969-2019

六、模型传递方法

近红外光谱分析中,由于两台仪器之间存在差异,使得同一样品在两台仪器上所获得的光谱存在差别,导致一台仪器上所建立的模型不能用于另外一台仪器。仪器间的差异包括不同型号仪器之间的差异和相同型号仪器之间的差异。对于不同型号的仪器,由于分光原理或采用的检测器等不同,导致波长范围、波长精度及光谱响应会存在差异。对于相同型号的仪器,由于加工工艺水平局限及仪器随时间老化等原因,也会使仪器波长及光谱响应存在差异。在许多应用领域中,建立模型是一项烦琐、重复的工作,浪费人力、物力等资源,而且有些情况下样品可能不易获得或不易保存,存在重新建模困难,需要采用数学方法解决仪器之间的模型适用性问题,称之为模型传递。

模型传递(Model transfer),也称仪器标准化(Standardization of spectrometric instruments)是指经过数学处理后,使一台仪器上的模型(称为源机,Master)能够用于另一台仪器(称为目标机,Slave),从而减少重新建模所带来的巨大工作量,实现样品和数据资源的共享。在确定仪器间光谱关系时,需要在两台仪器上同时测定某些样品的光谱,这些样品称为传递样品。根据是否需要传递样品,将模型传递分为无标样方法和有标样方法[6]。无标样方法在模型转移过程中不需要任何传递样品,主要以有限脉冲响应(Finite impulse responseFIR)算法为代表。有标样方法必须选择一定数量的样品组成标样集,并在源机和目标机上分别测得其信号,从而找出该函数关系。这类算法又分为两种,一是基于预测结果的校正,如斜率/偏差(Slope/Bias)算法;二是基于仪器所测光谱信号的校正,如直接校正(Direct standardizationDS)算法、分段直接校正(Piecewise direct standardizationPDS)算法和Shenks 算法。此外,光谱空间转换(SST)算法,已证明是一种效果良好的方法,其主要通过主从光谱空间之间的转换消除测量条件变化或仪器引起的光谱差异。
为您推荐
您可能想找: 气相色谱仪(GC) 询底价
专属顾问快速对接
立即提交
猜你喜欢最新推荐热门推荐更多推荐
品牌合作伙伴