几种光谱预处理方法的原理及作用

近红外光谱具有多重共线性、光谱带较宽、可解释性较差等特点，并且在近红外光谱采集的过程中，在内外因素的作用下（如物料的形态、近红外探头本身的设备误差等），不可避免的会携带一些与测试颗粒样本化学性质不相关的成分，导致采集的光谱中会存在光谱平移、重叠、旋转等噪声数据，使得待测样品的近红外光谱数据信噪比较低。因此，在建模前先对光谱进行预处理，尽可能多地去除掉对预测结果有干扰作用的无关噪声数据。适用范围广、信噪比高的近红外光谱数据对提高模型的准确性和泛化能力具有重要意义。

数据标度化

在采集近红外光谱的过程中，每批数据中不同大小的颗粒会对光谱数据产生影响。数据标度化[52]可以使得所有的数据数值通过变换转化成在同一量纲上。数据标度化方法有主要有中心化、标准化和归一化。

（1）中心化（Zerocentered）

中心化就是将光谱数据的平均值作为基准，用每个光谱数据来比较求差所得到一组新的数据，这样得到平均值为0新数据。中心化的公式如下：

(1)

式中，mean表示每一列光谱数据的平均值。

（2）标准化（Standardization）

标准化就是在中心化的基础上，除以数据的标准差，使数据呈现平均值为0，标准差为1的正态分布。标准化的公式如下：

(2)

式中，std表示每一列光谱数据的标准差。

（3）归一化（Normalization）

归一化的目的是对特征值进行等比缩放，将样本数据减去样本的最小值除以样本的最大数据与最小数据之差，将所有数据都映射到（0，1）区间内。归一化的公式如下：

(3)

式中，max表示一列的最大值，min表示一列的最小值。

经过三种数据标度化处理后的近红外光谱如图所示。

光谱数据中心化

光谱数据标准化

光谱数据归一化

Savitzy-Golay卷积平滑法

卷积平滑（Savitzy-Golay，SG）能够对信号的振动具有一定的抑制作用，降低数据的噪声，是目前使用较为广泛的降噪处理方法。他的基本原理是先设定一个窗口的大小，一个窗口内可以容纳一定数目的数据，为了得到窗口数据的中心点，窗口内的所有数据通过采用多项式的方法进行拟合，可以在平滑的同时保留光谱的有效信息。卷积平滑的结果主要与多项式次数和窗口宽度有关，合理的选择多项式次数和窗口宽度，可以最大程度的降低信号噪声对数据的影响。一般情况下，大的窗口宽度更有利于数据的平滑效果，不过窗口宽度过大会让数据中有效信号损失。多项式的次数和数据的平滑效果成反比，但是过小的次数可能会保留异常值。较大的多项式次数对异常值有很好的剔除效果，然而有可能使数据过度拟合，产生更多的噪声值。通常来说，多项式次数选择3或者4比较合适。

经过SG卷积平滑的光谱图像如下图所示。

图光谱数据SG卷积平滑

上图的近红外光谱图中尖刺明显变少了，图像也变得更加平滑，说明经过SG卷积平滑处理的近红外光谱去除了部分噪声数据，找到被掩盖的真正谱峰，有效地提高了光谱数据的信噪比。

标准正态变换

标准正态变换（Standard Normal Variate Transformation，SNV）的光谱预处理方法主要用在采集的固体颗粒近红外光谱中。在流化床制粒过程中，颗粒的粒径是不断慢慢生长的，在不同采样时间内颗粒的粒径大小会不一样，不同的粒径会对颗粒表面的散射和光程的变化等产生影响，导致光谱数据不具有普遍适用性[53]。相对于数据标度化，SNV不是处理一组光谱数据，而是针对单条光谱进行的标准化处理，SNV对单条光谱的处理过程公式如下。

(4)

式中，y表示某一条光谱经过SNV处理后的结果，xi 表示这条光谱中第i个数据值，表示这条光谱所有数据的平均值，n表示波长点的个数，其大小与近红外探头采集的光谱有关。

经过SNV方法的预处理后，得到的光谱图如所示。

图光谱数据SNV处理

从图中可以看出，原始光谱经过SNV处理后，两条光谱之间的间隔和差异缩小了，获得趋于紧密化的光谱，从而可以消除个体样品由于颗粒粒径大小等因素产生的差异，使得样品性质相同的光谱更加趋于一致性。

多元散射矫正

近红外光在不同粒径的颗粒上会产生散射影响，导致光谱产生差异。多元散射校正（Multivariate scatter correction，MSC）能够消除这种影响，提高光谱数据与水分含量数据之间的相关度。MSC通过与标准理想的光谱进行比较，采用旋转、平移等方式处理，修正光谱基线平移和偏移的现象，使得处理过后的原始光谱和理想的标准光谱呈线性关系。标准理想光谱的获取比较困难，因此，一般作为标准理想的光谱是所有光谱的平均值。MSC处理光谱的过程如下：

（1）求标准理想光谱。

(5)

为光谱的平均值，为每个光谱样本数据。

（2）利用求得的标准理想光谱，对每个样本光谱建立一元线性方程，求出每个样本的基线平移量和偏移量。

(6)

式中，为第i个样本光谱数据，为第i个样本光谱的平移量，为第i个样本光谱的偏移量。

（3）求出经过MSC处理过后的每个样本的光谱数据。

(7)

经过MSC处理过后的光谱数据图如下图所示。

图光谱数据MSC处理

对比可知，光谱经过MSC处理后跟SNV处理后的图形比较相似，由此可以初步判断，对近红外光谱进行MSC与SNV预处理的作用相似。这两种光谱预处理方法可以对颗粒的粒径大小、光程变化等引起的光谱误差。MSC和SNV的区别主要是，SNV主要是处理单个光谱，通过标准差对原始光谱进行校正，而MSC是对所有的样本集进行运算，将计算得到的所有光谱的平均值作为标准理想光谱进行校正。

方法比较

本文用PLS对经过预处理的光谱数据与水分含量数据进行建模，以均方根误差（Root Mean Square Error，RMSE）和相关系数（related coefficient，R）作为模型的评价标准，选择最合适的预处理方法。

将数据按照7：3的比例分为训练集和预测集，同时训练集中随机选出30%的数据作为验证集，通过对验证集的交叉验证可以看出模型的泛化能力。然后用交叉验证表现较好的模型对预测集中的数据进行预测。分别求出验证集的RMSEval与Rval和预测集的RMSEpre与Rpre，比较通过不同预处理方法后建模的结果。得到的模型预测结果如下表所示。

表不同光谱预处理方法的建模结果

评价参数预处理方法	RMSEval	Rval	RMSEpre	Rp
原光谱	0.242	0.958	0.221	0.960
中心化	0.232	0.960	0.237	0.967
标准化	0.242	0.956	0.234	0.947
归一化	0.228	0.959	0.216	0.968
SG平滑	0.236	0.964	0.224	0.965
标准正态变换	0.220	0.958	0.216	0.964
多元散射校正	0.223	0.965	0.227	0.977
归一化+SG平滑	0.214	0.967	0.212	0.973

从表中可以看出，单种预处理方法中经过SNV和Normalization处理的模型效果较好。而用Normalization结合SG平滑处理后预测结果最好，最终得到验证集的RMSE为0.214，相关系数R为0.967，预测集的RMSE为0.212，相关系数R为0.973。因此，Normalization结合SG平滑作为光谱的预处理方法用来模型的建立。

附件：

6.docx