主题：【分享】近红外光谱分析与化学计量学方法

浏览0 回复0 电梯直达

Ins_29253308

结帖率：

100%

关注：0 |粉丝：0

新手级：新兵

发表于：2024/06/24 21:02:15 楼主管理分享倒序浏览只看楼主回复私聊

在近红外光谱技术发展初期，由于数据处理方法的局限性，难以分离或提取近红外重叠谱峰中的有用光谱信息，其光谱数据可利用率低，导致该技术不受重视，一度进入沉默期。20世纪60年代以来，Norris利用近红外光谱技术在农产品品质分析中做了大量的工作，利用多元线性回归建立定标模型，但仍无法提取与物质成分含量相关的光谱信息，并给予合理的光谱解析。此外，也难以合理解释样品大小及颗粒度等影响所导致的光谱不稳定性。因此，近红外光谱技术被称为“黑匣子”技术。

直到20世纪80年代，化学计量学迅速发展，多元校正及模型识别等方法被逐步引入到近红外光谱解析和定标模型建立中，使得近红外光谱技术真正达到了定标理论与实践的统一，并推动了近红外光谱技术和化学计量学的并肩发展。目前，化学计量学是近红外光谱技术密不可分的一部分，主要包括光谱预处理方法、变量选择方法、定性定量建模方法、异常值的统计识别与模型优化方法、以及模型传递方法。一、样品的分组方法及选择标准

代表性样品的选取对于建立良好的定量定性模型非常重要。在获取代表性样品后，通常需要将样品分为校正集和验证集。对于样品的分组，常用的方法主要有Kennard-Stone（K-S）方法和SPXY方法。K-S方法主要是基于光谱变量之间的欧式距离，在特征空间中均匀选取样品，但样品选取时没有考虑样品浓度的影响。SPXY方法在K-S方法的基础上提出，综合考虑了样品光谱和浓度的距离进行样品选取。

对于校正集和验证集样品，其选择需要满足一定的参考标准。如校正集中的样品需要有较广的浓度范围，能覆盖待测样品可能出现的浓度范围，以保证待测样品的预测是通过模型内插分析而获得。此外，当建模所用的变量数为K（K>3）时，校正集样品的数量一般要不少于6K。详细的校正集和验证集样品选择标准请参考国家标准GB/T 29858-2013。二、光谱预处理方法

近红外光谱除了含有样品本身的物理结构与化学成分信息外，还会引入由仪器暗电流、样品背景与状态、杂散光、环境变化等因素引起的各类光谱噪声。因此，在建模分析前，需要对所采集的近红外光谱数据进行预处理，以尽可能地消除光谱噪声的影响。按光谱预处理方法的作用分，主要为基校线正、散射主要包括移动平均平滑、Savitzky-Golay卷积平滑、高斯滤波（Gaussian filter）平滑、中值滤波（Median filter）平滑等，用于降低光谱的随机噪声，提高光谱严重的数据冗余，直接利用所有变量来建模分析，会造成模型的过拟合，使模型的稳定性变差。因此，需要采用变量选择方法剔除冗余波长变量，筛选有用的特征波长变量。目前，变量选择方法主要有基于波长点的变量选择方法和基于波长区间的变量选择方法。

基于波长点的变量选择方法是将每一个波长作为一个变量，获取一系列的波长变量子集，并从变量子集中选择最优的波长变量组合。常用的变量选择方法^[6]主要有无信息变量消除（UVE）、连续投影算法（SPA）、遗传算法（G校正、平滑校正及尺度缩放四类。

基线校正方法主要包括一阶导数、二阶导数及小波变换（Wavelet transform，WT）等。一阶导数主要用于消除光谱基线的平移，二阶导数主要用于消除光谱基线的漂移。小波变换则是通过扣除原始光谱信号的低频成分实现基线校正。散射校正方法主要包括多元散射校正（Multiplicative scatter correction，MSC）和标准正态变量变换（Standard normal variate transform，SNV），主要用于消除由于颗粒大小和分布均匀度不同所产生的散射对光谱的影响。平滑校正方法信噪比。尺度缩放方法主要包括中心化变换（Mean centering）、标准化变换（Auto scaling）、最大最小归一化（Min-max scaling）、Pareto尺度化等，用于消除尺度差异过大带来的影响。

三、光谱变量选择方法

近红外光谱数据变量众多，往往有几百甚至上千个波长变量，存在着A）、竞争性自适应重加权采样（CARS）^[17]、变量投影重要性（VIP）^[18]、模拟退火算法（SA）、粒子群优化算法（PSO）、蚁群优化算法（ACO）、迭代保留有效变量（IRIV）^[19]、自举柔性收缩算法（BOSS）^[20]等。

基于波长区间的变量选择方法是将光谱波长区间作为一个处理单元（变量），获取一系列波长区间的组合，从中选择最优的波长区间组合。常用的变量选择方法主要有区间偏最小二乘（iPLS）、前向偏最小二乘（fiPLS）、反向偏最小二乘（biPLS）、区间组合偏最小二乘（siPLS）、移动窗偏最小二乘（MWPLS）、区间组合优化法（ICO）^[21]及区间蛙跳算法（iRF）^[22]等。其中，fiPLS、biPLS、siPLS、ICO及iRF方法是iPLS的衍生算法。四、建模方法

近红外光谱分析技术是一种间接分析技术，其成功应用依赖于良好的定性/定量分析模型。近红外光谱分析中，建模方法主要分为定量建模方法和定性建模方法两大类。常用的定量建模方法^[6]主要有多元线性回归（Multiple linear regression，MLR）、主成分回归（Principle component regression，PCR）、偏最小二乘回归（Partial least squares regression，PLSR）、人工神经网络（Artificial neural network，ANN）、支持向量机回归（Support vector regression，SVR）、最小二乘支持向量机回归（Least squares support veotor regression，LSSVR）、核偏最小二乘（kernel partial least squares，KPLS）、极限学习机（Extreme learning machine, ELM）^[23]等。其中，MLR、PCR及PLSR均是基于线性回归的定量建模方法，而ANN、SVR、LSSVR、KPLS及ELM则是基于非线性回归的定量建模方法。

定性建模方法主要分为无监督和有监督的模式识别方法两类。无监督的模式识别方法是一种事先对未知类别的样品分类，无需训练的分类方法。常用方法主要有最小生成树、K均值聚类分析、系统聚类分析、模糊聚类法及自组织神经网络（Self-organizing neural network，SONN）^[24]。有监督的模式识别方法是利用已知类别的样本作为训练集，通过已知样本的训练和学习建分类器。常用方法主要有最小距离判别、K最近邻法、线性判别分析（Linear discriminant analysis，LDA）、势函数判别法、簇类独立软模式方法（Soft independent modeling of class analogy，SIMCA）、ANN及支持向量机分类（Support vector classification，SVC）等。

恭喜您！提交成功

主题：【分享】近红外光谱分析与化学计量学方法