多原子分子的振动比较复杂。在一个多原子分子中,会有3N-6种能级(N为原子数),加之可以有许多不同组合的合频,因此常常会出现其中有两个能级是十分接近的,这样就使得近红外谱区的谱带重叠。
因为每个近红外谱带可能是若干个不同基频的倍频和合频谱带的组合,以及各种使谱带增宽的微观原因,造成没有锐峰和基线分离的谱峰,大量的是重叠的谱峰和肩峰。另外影响近红外谱带位置变化的因素较多,如氢键的影响,使谱带向长波方向移动,液体稀释和温度升高使谱带向短波长方向移动,使得确定近红外谱带的归属很困难。
§2.2
近红外光谱分析技术中的化学计量学方法
由于
近红外光谱谱峰较宽,实际样品中各种成分的吸收峰重叠严重,需要用化学计量学方法对
近红外光谱进行分析。化学计量学在
近红外光谱分析中占有非常重要的地位。图2-2是
近红外光谱分析的原理示意图,化学计量学将
近红外光谱和样品的组成或性质数据关联了起来,得到
近红外光谱分析模型。
近红外光谱 近红外光谱 未知样品
模型
组成或性质
化学计量学软件
训练集样品
组成或性质数据
图2-2
近红外光谱分析原理图
化学计量学一词是由瑞典化学家Wold于1971年在为一项基金定名时首先提出的,并在以后的发展中被普遍接受。化学计量学采用统计学、应用数学和计算机科学的方法来优化化学实验、化工生产和化学量测过程,并从化学量测的数据中最大限度地提取相关信息。化学计量学在
近红外光谱分析中的应用主要有以下五个方面:光谱数据的预处理、信息提取和压缩、定量校正、模式识别和模型传递。光谱数据预处理的主要目的是过滤噪声、减小实验误差的影响。其具体实施将在下一章介绍。信息提取和压缩主要目的是为定量校正做准备。模式识别主要包括产地的鉴别、等级和分类等等。由于用不同光谱仪器或同一光谱仪器采集样品光谱的结果往往不同,所以通过某一光谱仪器采集光谱进而建立起来的数学模型,一般不能用于对其它光谱仪器采集到的光谱进行含量预测或模式识别。为了使模型能在其它仪器上使用,需要对模型进行修正,这就是模型传递的情形之一。
经典光谱定量分析的基础是比尔定律:
(2—7)
其中Aλ为吸收度,ελ为消光系数,L为光程,C为被测组分浓度。不同物质具有不同的ελ,在光程L一定的条件下,Aλ和C成线性关系,这是定量分析的基础。
多元线性回归、偏最小二乘法和人工神经网络法是
近红外光谱分析中常用的化学计量学方法。它们原理不同,都有各自的特点,需要根据被研究对象的特点合理运用。
§2.2.1 多元线性回归
多元线性回归的常见形式为:
(2—8)
式(2—8)中y是样品的质量参数, 是样品的第k个光谱分量(第k个波长处的光谱吸收值), (或 )。n是自变量数, , , ,…, 是回归系数。
从式(2—8)可以看出在多元线性回归中,只要知道样品中某些成分的浓度,就可以建立样品质量参数体系的定标模型。唯一的要求就是选择好对应于被测质量参数的数据向量(如某些特征波长处的光谱吸收)。
§2.2.2 偏最小二乘法
偏最小二乘法(Partial Least Squares)分为单因变量偏最小二乘法(PLS1)和多因变量偏最小二乘法(PLS2)。PLS1用于对各个组分分别建立数学模型,PLS2用于同时对多个组分建立数学模型。
假设要建立各因素构成的数据矩阵X(包含p个变量)与由各目标构成的数据矩阵Y(包含p1个变量)之间的关系,样本数为m。大体包含以下3步:
首先将X矩阵作双线性分解,即
(2—9)
其中矩阵T含有两两正交的隐变量或得分矢量t。从统计学上看这个表达式与主成分分析法相同。
然后对目标矩阵Y也作双线性分解。即
(2—10)
其中U矩阵包含Y的隐变量u,即u为矩阵Y中变量的线性组合,E为残差阵。
在本课题中,X可以看作是光谱数据矩阵,Y可以看作是茶叶成分含量值。
第三步,PLS方法要求X分解得到的隐变量t与Y分解得到的隐变量u为最大重叠或相关性最大,因此有
(2—11)
式中e为残差矢量,系数v根据最小二乘确定。
在实际问题中,由于矩阵X中的变量之间存在着相关性,同时还包含有噪声,所以PLS方法建模时取X矩阵分解后的隐变量个数h一般小于实际变量个数p,使得一些包含有噪声的隐变量被删除,因而具有噪声过滤作用[27]。
但是如果使用的隐变量数过少,就不能充分反映被测组分浓度变化产生的光谱变化,模型预测准确度就会降低。如果使用过多的隐变量建模,就会引入一些代表噪声干扰的隐变量,使模型的预测能力下降。因此,需要合理确定模型的隐变量数以充分利用光谱信息和滤除噪声。
对隐变量个数的确定常采用所谓的PRESS(Prediction Residual Error Sum of Squares:预报残差平方和)判据。它的基本思想如下:将样品集分为训练样品集和检验样品集,假定当前的隐变量个数是h1,将检验样品集的样品逐一代入根据训练样品集建立的模型,求得预测值和参考值的差(残差),在计算它们的平方和:
(2—12)
式中m为用来预测的样品数。yn和yn,-n分别为参考值和预测值。PRESS越小,表示模型的预测能力越强。这样可以将其取得最小值的隐变量个数h作为最终的隐变量个数。
若矩阵Y中只有一个目标变量(只对茶叶中的一种成分建模),则PLS方法的计算将会简化。将此时的PLS称为PLS1算法,对多目标变量时称为PLS2法。用PLS1法建立的数学模型的预报能力一般会更高。这主要是因为有时矩阵Y中的目标变量yi不属于同一类型,对应于由X求得的隐变量最优个数不一定相同,而PLS2法只能有一个隐变量个数。
PLS具有以下的特点:
(1)既可以使用全部光谱数据(数据向量多)又可以使用部分光谱数据(数据向量少)。
(2)把数据分解和回归融合在一起,得到的特征向量直接与被测成分或性质相关,而不是与数据矩阵中变化最大的变量相关。
(3)PLS方法比较适用于处理变量多而样本数少的问题。
(4)由于PLS法是一种非线性迭代方法,对于非线性体系和质量参数之间相互干扰的数据回归效果优于多元线性回归方法。
相对于多元线性回归法,PLS法的缺点是模型建立过程复杂,公式含义抽象、较难理解。
在化学计量学定标方法中,偏最小二乘法最为常见[28]。例如:曹干等采用PLS法建立蔗汁蔗糖定量分析的数学模型。蔗汁蔗糖分和转光度预测数学模型的决定系数(R2)分别为0.9980和0.9979,校正均方根差(RMSECV)分别为0.143%和0.155%,预测误差与常规分析方法的误差接近[29];覃方丽等对鲜辣椒中糖份和维生素C的含量用偏最小二乘回归法进行了建模,表明二者的含量与
近红外光谱有显著的相关关系(0.9024,0.9122)[30];王东丹等对青烟叶的总糖、还原糖、尼古丁、总氮、总氯等5种主要品质参数建模,用的是偏最小二乘法。其中总糖的平均相对误差最小(4.78%),而总氯的平均相对误差最大(18.60%)[31]。