主题:【求助】近红外技术中的PCR和PLS是指什么?

浏览0 回复7 电梯直达
meilichongz
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
Principal Components Regression (PCR)
Partial Least Squares (PLS)
我知道这两个都是近红外技术中的化学计量方法,可是具体是指什么呢,对应的中文又是什么?请教各位老师,谢谢!
为您推荐
您可能想找: PCR 询底价
专属顾问快速对接
立即提交
idea17
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
这都是红外技术中关于谱线处理的几种方法,象用于解决定性、定量校正模型的多元线性回归法(MLR),偏最小二乘法(PLS),主元回归法(PCR)等都已成为标准方法定于ASTM E1655之中。
该帖子作者被版主 ruojun2积分, 2经验,加分理由:鼓励帮助和参与
meilichongz
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
熊猫宝宝
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
原文由 meilichongz 发表:
Principal Components Regression (PCR)
Partial Least Squares (PLS)
我知道这两个都是近红外技术中的化学计量方法,可是具体是指什么呢,对应的中文又是什么?请教各位老师,谢谢!


主成分分析(Principal Component Analysis,PCA):
近红外光谱包含大量的信息,我们希望有一个或几个较好的综合指标来概括信息,而且希望综合指标互相独立地各代表某一方面的性质。任何一个度量指标的好坏除了可靠、真实之外,还必须能充分反映个体间的变异。如果有一项指标,不同个体的取值都大同小异,那么该指标不能用来区分不同的个体。由这一点来看,一项指标在个体间的变异越大越好。因此我们把“变异大”作为“好”的标准来寻求综合指标。
(1) 主成分的一般定义 
设有随机变量X1,X2,…,Xp, 其样本均数记为 , ,…, ,样本标准差记为S1,S2,…,Sp。首先作标准化变换

我们有如下的定义:
(1) 若C1=a11x1+a12x2+ … +a1pxp, ,且使 Var(C1)最大,则称C1为第一主成分;
          (2) 若C2=a21x1+a22x2+…+a2pxp, ,(a21,a22,…,a2p)垂直于(a11,a12,…,a1p),且使Var(C2)最大,则称C2为第二主成分;
          (3) 类似地,可有第三、四、五…主成分,至多有p个。
(2.)主成分的数目的选取 
前已指出,设有p个随机变量,便有p个主成分。由于总方差不增不减,C1,C2等前几个综合变量的方差较大,而Cp,Cp-1等后几个综合变量的方差较小, 严格说来,只有前几个综合变量才称得上主(要)成份,后几个综合变量实为“次”(要)成份。实践中总是保留前几个,忽略后几个。
保留多少个主成分取决于保留部分的累积方差在方差总和中所占百分比(即累计贡献率),它标志着前几个主成分概括信息之多寡。实践中,粗略规定一个百分比便可决定保留几个主成分;如果多留一个主成分,累积方差增加无几,便不再多留。


PLS是近红外光谱分析中使用最多和效果最好的一种方法。

使用主成分和得分概念去表征光谱,即任何一个原始光谱图都可以使用主成分光谱和其得分的线性组合来重建。化学计量学方法通过数学方法对原始光谱处理,得到光谱的主成分和得分,根据一定的规则选取一定数目的主成分光谱重建光谱,该重建光谱最大限度地反映了被测样品的组成和结构信息,而最小限度地包含噪音。

1、    多元线性回归(MLR)
用回归方程定量地刻划因变量Y与多个自变量X1,X2 … 间的线性依存关系,称为多元线性回归(Multiple Linear Regression, MLR)。
设有p个自变量X1,X2,…,Xp,一个因变量Y,以及一份由n个个体构成的随机样本(xi1,xi2,…,xip,yi),i=1,2,…,n,满足
    其中 0为回归方程常数项,也称为截距,  1, 2,…, p称为偏回归系数(partial regression coefficient), i表示在除Xi以外的其它自变量固定的条件下,Xi每改变一个单位后Y的平均变化。与上式相应,我们有样本回归方程
                                     
其中 ,b1 ,b2… 等是 1, 2,…等的样本估计值,简称回归系数。

2、    主成分回归(PCR)
    主成分分析本身往往并不是目的,而是达到目的的一种手段,把它用在多重回归中,便产生了主成分回归。
    在多重回归曾指出,当自变量间高度相关时,某些回归参数的估计值极不稳定,甚至出现有悖常理、难以解释的情形。这时,可先采用主成分分析产生若干主成分,它们必定会将相关性较强的变量综合在同一个主成分中,而不同的主成分又是互相独立的。只要多保留几个主成分,原变量的信息不致过多损失。然后,以这些主成分为自变量进行多重回归就不会再出现共线性的困扰。如果原有p个自变量X1,X2,…,Xp,那么,采用全部p个主成分所作回归完全等价于直接对原变量的回归;采用一部分主成分所作回归虽不完全等价于对原变量的回归,但往往能摆脱某些虚假信息,而出现较合理的结果。
3、    偏最小二乘法(PLS)
偏最小二乘法把模型式的方法和认识性的方法有机的结合起来,在一个算法下,可以同时实现回归建模(多元线性回归)、数据结构简化(主成分分析)以及两组变量之间的相关性分析(典型相关分析),它的提出是多元统计数据分析中的一个飞跃。偏最小二乘法是一种多因变量对多自变量的回归建模方法,可以较好的解决许多以往用普通多元回归无法解决的问题。
偏最小二乘法(Partial Least Squares)分为单因变量偏最小二乘法(PLS1)和多因变量偏最小二乘法(PLS2)。PLS1用于对各个组分分别建立数学模型,PLS2用于同时对多个组分建立数学模型。
假设要建立各因素构成的数据矩阵X(包含p个变量)与由各目标构成的数据矩阵Y(包含p1个变量)之间的关系,样本数为m。大体包含以下3步:
首先将X矩阵作双线性分解,即
                              (2-9)
其中矩阵T含有两两正交的隐变量或得分矢量t。从统计学上看这个表达式与主成分分析法相同。
然后对目标矩阵Y也作双线性分解。即
                            (2-10)
其中U矩阵包含Y的隐变量u,即u为矩阵Y中变量的线性组合,E为残差阵。
在本课题中,X可以看作是光谱数据矩阵,Y可以看作是茶叶成分含量值。
第三步,PLS方法要求X分解得到的隐变量t与Y分解得到的隐变量u为最大重叠或相关性最大,因此有
                                (2-11)
式中e为残差矢量,系数v根据最小二乘确定。
在实际问题中,由于矩阵X中的变量之间存在着相关性,同时还包含有噪声,所以PLS方法建模时取X矩阵分解后的隐变量个数h一般小于实际变量个数p,使得一些包含有噪声的隐变量被删除,因而具有噪声过滤作用。
但是如果使用的隐变量数过少,就不能充分反映被测组分浓度变化产生的光谱变化,模型预测准确度就会降低。如果使用过多的隐变量建模,就会引入一些代表噪声干扰的隐变量,使模型的预测能力下降。因此,需要合理确定模型的隐变量数以充分利用光谱信息和滤除噪声。
对隐变量个数的确定常采用所谓的PRESS(Prediction Residual Error Sum of Squares:预报残差平方和)判据。它的基本思想如下:将样品集分为训练样品集和检验样品集,假定当前的隐变量个数是h1,将检验样品集的样品逐一代入根据训练样品集建立的模型,求得预测值和参考值的差(残差),在计算它们的平方和:
            (2-12)
式中m为用来预测的样品数。yn和yn,-n分别为参考值和预测值。PRESS越小,表示模型的预测能力越强。这样可以将其取得最小值的隐变量个数h作为最终的隐变量个数。
若矩阵Y中只有一个目标变量(只对一种成分建模),则PLS方法的计算将会简化。将此时的PLS称为PLS1算法,对多目标变量时称为PLS2法。用PLS1法建立的数学模型的预报能力一般会更高。这主要是因为有时矩阵Y中的目标变量yi不属于同一类型,对应于由X求得的隐变量最优个数不一定相同,而PLS2法只能有一个隐变量个数。
PLS具有以下的特点:
(1)既可以使用全部光谱数据(数据向量多)又可以使用部分光谱数据(数据向量少)。
(2)把数据分解和回归融合在一起,得到的特征向量直接与被测成分或性质相关,而不是与数据矩阵中变化最大的变量相关。
(3)PLS方法比较适用于处理变量多而样本数少的问题。
(4)由于PLS法是一种非线性迭代方法,对于非线性体系和质量参数之间相互干扰的数据回归效果优于多元线性回归方法。
相对于多元线性回归法,PLS法的缺点是模型建立过程复杂,公式含义抽象、较难理解。
该帖子作者被版主 ruojun2积分, 2经验,加分理由:鼓励帮助和感谢参与
闲鹤野云
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
phoenix789
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
这都是建模的回归统计方法,常用的除了PCR、PLS,还有MLR(多元线性回归)和人工神经网络等
doctor
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
化学计量学是对化学测量数据进行计算。就光谱分析而言,实际测得的光谱数据不仅包括了被测样品的组成和结构信息,而且还包括了噪音,噪音包括测量误差,不同组分之间的干扰等。由于噪音的影响,尤其在复杂分析体系中,常常不能满足光谱分析的基础--比尔定律成立的条件。而化学计量学方法可有效地剔除这些噪音。

近红外光谱分析技术采用的化学计量学方法为多元校正方法,主要有多元线性回归(MLR)、主成分分析(PCA)、主成分回归(PCR)、偏最小二乘法(PLS)、拓扑学方法和人工神经网络(ANN)等。其中PLS是近红外光谱分析中使用最多和效果最好的一种方法。

常用的化学计量学方法引入了“主成分”和“得分”的概念。主成分相当于一个度量单位,得分相当于权重。比如人民币,以其面值的度量单位有100元,50元,10元,1元等。举例有287元,用主成分和得分的概念去表征,100×2+50×1+10×3+1×7,即100元,50元,10元和1元为主成分,它们的得分分别为2,1,3和7,这里按照面值的大小分类,100元为第一主成分,50元为第二主成分,余类推。使用主成分和得分概念去表征光谱,即任何一个原始光谱图都可以使用主成分光谱和其得分的线性组合来重建。

化学计量学方法通过数学方法对原始光谱处理,得到光谱的主成分和得分,根据一定的规则选取一定数目的主成分光谱重建光谱,该重建光谱最大限度地反映了被测样品的组成和结构信息,而最小限度地包含噪音。化学计量学在光谱分析中应用包括定性和定量分析。定性分析包括主成分分析和聚类分析。定量分析包括主成分分析和回归分析。

该帖子作者被版主 ruojun2积分, 2经验,加分理由:感谢分享和参与
wmh3216
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
猜你喜欢最新推荐热门推荐更多推荐
品牌合作伙伴