主题:【分享】波长选择方法

浏览0 回复0 电梯直达
Ins_29253308
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
由于近红外光谱数据含有上千个波长点,并不是所有波长变量都与目标组分相关。因此需要从采集的波长变量中选择代表样本信息的重要波长,删除冗余波长。合适的波长选择可以增强模型的解释性,简化模型提高模型的预测精度。目前,波长选择方法主要分为三大类:波长点选择方法、波段选择方法和变量加权方法。波长点选择方法包括基于智能优化算法的方法、基于统计学的方法和相关系数等其他方法。波段选择方法主要有间隔偏最小二乘法、移动窗口偏最小二乘法及其衍生化方法。变量加权方法是波长选择方法的发展与扩充,它虽然使用全部波长点,但给每个波长变量赋予不同的权重,有变量加权的PLS和变量加权的支持向量回归(SVR等方法。

一、波长点的选择方法

1. 基于智能优化算法的方法


1模拟退火

模拟退火算法(SA)是由Metropolis1953年模拟固体退火过程而提出的一种智能优化算法。SA包括加温过程、等温过程和冷却退火过程。等温下的热平衡过程采用Metropolis准则,即重要性采样法;并用一组称为冷却进度表的参数控制算法进程,使算法能够节约时间。SA在波长选择中的应用由Kalivas[29]1989年开始,其基本过程如下:

首先给定一较高的模拟退火起始温度T0

随机选定一初始变量子集Si作为初始解,用多元校正方法计算其预测误差Ei

对初始变量子集给一随机微扰,得到一个新的变量子集Sj,计算其预测误差Ej;如果Ej<Ei,则接受为新解,否则以概率p=exp[-(Ej-Ei)/T]接受为新解,其中T为模拟退火温度

回到步骤2,直到达到此温度下的平衡

回到步骤1,并降低模拟退火温度T,直到T达到指定的最低模拟退火温度。理论上讲,初始温度足够高,温度下降越慢,每个温度下的抽样时间越长,得到全局最优解的可能性越大,但因此花费时间也越长;反之,可以节约时间,但结果可能受到影响。因此,参数选择的效果往往与运行效率密切相关。

2遗传算法

遗传法( GA)是由美国密歇根大学的Holand教授于1975年提出的一种具有高度的并行、随机和自适应性的概率搜索方法。它根据达尔文进化论生存竞争优胜劣汰的原则,从任一初始解群体出发,借助复制、交叉、变异等操作,使优胜者繁殖,劣败者消失,一代一代地重复,最终使所要解决地问题从初始解一步步地逼近全局最优解,以解决复杂的优化问题。GA用于波长点选择时,常采用0/1编码,1代表波长点被选中,0代表波长点未被选中,适应性的评价函数一般通过对预测均方根误差进行一定的变换得到[30]GA是在波长选择中应用最广泛的一种智能搜索算法,该方法也存在以下缺点:收敛速度慢、容易陷入局部最优;GA算法具有一定的随机性,多次运行可能结果不统一;容易陷入得到退化解或者收敛于局部极小值。因此,不断有对GA的改进方法出现。

3蚁群算法

蚁群算法(ACO)是受蚁群在觅食过程中总能找到一条从巢穴到食物的最短路径这一现象的启发,由意大利学者Dorigo1991年首次提出的一种新型的智能优化算法。仿生学家发现蚂蚁在它经过的路径上留下一种挥发性的分泌物“信息素”进行间接通讯,其他蚂蚁在觅食过程中能够感知这种物质的存在及浓度,选择信息素浓度高的路径,它们又在该路径上留下信息素,继而吸引更多的蚂蚁,形成一种正反馈。通过这种正反馈,蚂蚁最终可以发现从蚁巢到食物的最短路径。基于蚁群觅食的ACO主要包括路径构建和信息素更新两个基本步骤。ACO具有好的稳健性、通用性、正反馈、并行性、参数少、易与其他算法结合等优点,已经在波长选择中显示出了良好的能力[31]。然而该算法也具有容易陷入局部最优、搜索时间较长、对连续问题优化能力较弱等缺点,因此又发展了一系列对ACO本身的改进或者与其他搜索算法结合的算法。

4粒子群算法

粒子群算法(PSO)是受鸟群觅食过程启发,由美国EberhartKennedy博士在1995年提出来的一种基于群体智能的搜索算法[32]。鸟类通过搜寻目前离食物最近的鸟的周围区域而觅到食物。PSO就是模拟和提炼了鸟群中每个个体根据自身的位置和同伴的位置来确定自己的新位置最终找到食物的过程。在PSO中,每个优化问题的潜在解都是搜索空间中的一只鸟,称之为“粒子”。每个粒子都有一个由被优化的函数决定的适应值(Fitness value)和一个决定其飞翔方向和距离的速度。然后粒子们就追随当前的最优粒子在解空间中搜索。PSO初始化一群随机粒子,然后通过迭代找到最优解。粒子在每次迭代中通过跟踪两个极值进行更新。一个是粒子本身所找到的最优解,称为个体极值pBest,一个是整个粒子群目前找到的最优解,称为全局极值gBestPSO用于波长选择并与PLSSVR等方法结合,用于芳香化合物毒性的定量构效关系分析、紫外可见光谱、近红外光谱建模等领域表现出了较好的性能

,2655)萤火虫算法

萤火虫算法FA)是受自然界中萤火虫种群行为的启发,由Xin-She Yang2008年提出[33]的一种群智能优化算法。当亮度较高的萤火虫飞过亮度较低的萤火虫时,那些本身暗淡的萤火虫会跟随明亮的萤火虫一起飞行。这一行为便是FA的生物学原理。FA假定所求的问题是一个萤火虫种群,问题包含的种种因素看作一个个萤火虫个体,萤火虫受绝对亮度比它大的萤火虫所吸引,并根据位置更新公式进行移动,最后便可以得到最亮的萤火虫,即一个问题的最优解,其基本流程如图5-6所示。FA已经用于近红外波长选择并表现出了良好的性能[34]

6)灰狼算法

,248灰狼优化算法(GWO)是受灰狼群体捕食过程的启发,由澳大利亚学者Mirjalili[35]2014年提出来的一种群体智能优化算法。灰狼群居,在捕猎过程中它们分工明确、共同合作进行捕猎。领导能力最强的灰狼被记为α,主要负责捕猎过程中的决策部分及管理狼群。剩下的灰狼个体按社会等级被依次记为βδω。其中β狼和δ狼是等级依次排在后面的两个个体,捕猎中它们会协助α狼对灰狼群进行管理辅助参与捕猎过程中的决策问题。剩余的狼群被定义为ω,其主要职责是平衡灰狼种群的内部关系及协助αβδ对猎物进行攻击。在整个捕猎过程中,首先由α狼带领狼群搜寻、追踪猎物,当距离猎物足够近时,α指挥βδ狼对猎物进行围攻,并召唤周围的ω狼对猎物进行攻击,当猎物移动时,狼群包围圈也随之移动,直到捕获猎物。GWO算法的原理图如图5-7所示。图中DαDβDδ,表示狼到αβδ狼的距离,C1C2C3表示狼的位置对猎物影响的随机权重,a1a2a3表示收敛因子。算法通过包围、追捕、攻击三个阶段进行捕猎,最终捕获猎物即获得全局最优解。卞等[36]将该方法用于玉米样本的近红外光谱波长选择,结果表明,该方法优化速度快、选择波长数少,还可以显著提高PLS模型的预测精度。

2. 基于统计学的方法

1)无信息变量消除方法

无信息变量消除方法(UVE是由Massart[37]等基于PLS回归系数提出的一种波长点选择方法,该方法已经广泛地应用于光谱的有用波长选择中。无信息变量消除法就是把相同于校正集光谱矩阵的变量数目的随机矩阵(等同于噪声)加入光谱中,然后通过留一交验证(Leave-one-out cross validation, LOOCV)建立PLS模型,得到回归系数矩阵B,用回归系数的平均值除以回归系数的标准偏差作为衡量某个变量稳定性的参数。将所有变量稳定性值进行降序排序,将噪声的稳定性最大值作为阈值,删除小于该阈值的变量。该方法不仅适用回归系数的绝对值,还将回归系数的方差考虑进来,并且集噪声、光谱和浓度信息于一体,直观实用。

2)蒙特卡罗-无信息变量消除方法

蒙特卡罗-无信息变量消除方法(Monte Carlo-uninformative variable elimination, MC-UVE[38]是对UVE技术的一种发展。该方法不需要添加大量额外的随机噪声变量,采用MC技术代替UVE方法中的LOOCV来计算变量的稳定性值,能更有效地从数据的不同方面抽取并表达样本光谱和待测组分性质之间的复杂关系,可靠地估计每个变量的稳定性,有望解决过拟合问题。随着数据集样本的增大,MC-UVE算法计算速度会明显优于UVE算法。

3随机检验-偏最小二乘法

随机检验(Randomization test, RT是利用样本整体的分布规律对某种假设进行检验的一种统计学方法。RT-PLS方法[39]RT的思想引入到多元校正中波长点的选择过程。该方法保持校正集中光谱数据不变,而将其对应的浓度值随机打乱,利用随机化后的浓度值与原始光谱矩阵建立足够数目(比如1000个)的PLS模型,并将这些模型的回归系数作为噪声值。然后对每一个波长,考察其对应的大量“噪声”值与其真实PLS模型回归系数的显著性差异,计算出相应的P值,再根据P值来判断其对模型的重要性。通过考察保留波长数与模型的关系,保留适当的有信息波长,从而建立最优模型。由于这种变量选择的方法结合了统计检验思想,使波长选择的结果更加可靠。

4子窗口扰乱分析方法

子窗口扰乱分析(Subwindow permutation analysis, SPA)是一种基于模型集成分析的波长选择方法[40]。该方法首先在样本方向和变量方向同时使用蒙特卡罗随机采样的技术进行子集的选取。如果某个变量是信息变量,那么含有这个变量的子模型的预测误差要比该变量被扰乱时的模型预测误差小,反之,前者预测误差要比后者大。因此,分别计算两者所有子模型预测误差的平均值,如果前者大于后者,表明该变量为无信息变量,直接将该变量去掉;否则,通过P检验保留那些平均误差分布具有显著性差异的变量。

5蒙特卡罗树

分类与回归树(Classification and regression trees, CART)是由四位美国统计学家于1970年提出的一种非常有效的非参数分类和回归的统计学方法。它通过构建二叉树达到预测目的,包括分类树和回归树。CART能同时进行样本的分类或回归与变量的选择。然而,CART算法具有不稳定性,即自变量X较小的变化可引起树结构很大的变化。蒙特卡罗采样后多次结果的统计值恰好具有提高结果稳定性这一优势。将蒙特卡罗与CART的分类树结合,就是蒙特卡罗树(Monte Carlo classification tree algorithm, MCTree)的方法[41],该方法可以同时用于样本分类与特征变量的选择。首先用蒙特卡罗随机分组技术将校正集产生很多校正子集和验证集,其中校正子集用来构建分类树,验证集使用模糊修剪策略对树进行修剪。每次的校正子集会产生一个分类树,从分类树可以得到样本的分类情况及跟分类相关的特征变量。将这多棵树的结果进行统计,每个变量重要性的平均值即为最终输出的变量重要性指标。

6C

C值(C Value)是张等[42]提出的一种变量重要性参数。由于在多元建模中,所有参与建模的变量在系数的加权下共同作用于研究目标,此时变量之间的协同效应也不容忽视,即:在某些变量同时存在时,模型效果显著提高或者降低。为了研究这种协同效应,需要将所有的变量组合进行建模。然而当有N个变量时,其组合数多达2N个,这对于动辄几百上千的近红外光谱而言,几乎是不可能实现的。因此通过蒙特卡罗随机抽样的方法在有限次变量的随机抽样组合后,构造变量的抽样矩阵和预测误差向量,将两者进行线性回归后用回归系数代表变量在排列组合时的平均重要性,称为C值。将基于C值的波长选择和收缩策略进行结合得到了基于C值的多步变量选择方法(Multi-stepvariableselectionbasedonCvalue, MSVC),该方法在近红外光谱建模中表现出良好的效果。

3. 其他方法

1相关系数法和方差分析法

相关系数法(Correlation coefficients[43]是将校正集光谱阵中的每个波长对应的吸光度向量与浓度阵中待测组分的浓度向量进行相关性计算,得到每个波长变量下的相关系数。相关系数数值越大表示该波长对待测组分定量分析的贡献越大。因此将相关系数排序,选择合适的阈值,将相关系数大于该阈值的波长保留,来建立多元校正模型。该方法考察的是单个波长变量和浓度的相关性,如果变量之间有协同效应,即每个变量与浓度单独的相关性很差,但是它们在一起时与浓度的相关性变好。对于这种情况,相关系数法会失效。类似地,方差分析法Deviation analysis计算校正集各波长变量处的方差,按方差进行变量从大到小排序,保留大于合适阈值的变量。该方法只考虑了光谱的影响,浓度的影响未包含进来。

2互信息

互信息(MI)又称为互熵,来源于信息论,为两个变量统计相关性的一种测度。MI是一个变量包含另一个变量的信息量的度量,也可以理解为由于另一个信息变量获得后,原变量不确定度的缩减值[44]MI对变量的分布类型没有特殊要求,变量间线性与非线性相关关系都能描述。将光谱矩阵的波长变量与浓度变量视为两个离散变量,则一个波长变量与浓度变量间的互信息量就表示:该波长变量中包含浓度变量信息的多少。互信息值越大,则该变量被选择的机会就越高。该方法的波长选择是通过前向和后向过程逐步实现的。结果表明,该方法不仅能提高预测精度,也可以对光谱波长选择结果进行解释。

3变量投影重要性

变量投影重要性(VIP)是指自变量(波长变量)在解释因变量(浓度变量)时作用的重要性。VIP指标综合考虑了光谱对构造PLS成分的贡献和PLS成分对浓度变量的解释能力。某个波长变量对浓度变量的解释能力是通过得分来传递的,如果得分对浓度变量的解释能力很强,且该变量在构造这个得分时又起到了相当重要的作用,那么最终VIPj指标也很大,表示该波长变量对浓度变量有很强的解释能力。

4连续投影算法

连续投影算法(SPA)是Bregman1965年提出的一种解决凸可行问题的方法。SPA用于波长选择时选择那些具有最小冗余信息的波长点,采取逐步加入的方式,首先从一个变量开始,然后每次迭代增加与前一个变量正交性最大的变量,直到到达固定数目的变量。Araujo[45]SPA用于钴、铜、锰、镍、锌五种金属络合物紫外可见光谱的波长选择。结果表明,SPA波长选择能简化模型,提高预测能力。

5竞争性自适应权重取样方法

竞争性自适应加权采样CARS是梁等[46]基于回归系数及达尔文进化论提出的一种波长点的选择方法。该方法模仿达尔文进化论中的“适者生存”原则,将每个变量看成一个个体,对变量实施逐步淘汰。利用回归系数绝对值的大小作为衡量变量重要性的指标,同时,引入了指数衰减函数来控制变量的保留率。每次通过自适应重加权采样(ARS)技术筛选出偏最小二乘(PLS)模型中回归系数绝对值大的波长点,去掉权重小的波长点,利用交互检验(CV)选出模型交互验证均方根误差(RMSECV)最低的子集,可有效选择与所测性质相关的最优波长组合。

6自组织映射

自组织映射(SOM)是芬兰学者Kohonen1981年提出的一种机器学习算法。SOM以其特征保持、数据降维以及可视化等特点,已在校正集和预测集的划分、代表性样本的选择、非线性模型的建立、聚类分析、波长选择等方面得到了应用SOM包含输入层和竞争层,它的输入层是单层单维神经元,对应样本向量或者波长向量;而输出层是二维的神经元,经过SOM训练,相似的样本或波长变量就会聚集到同一神经元或邻近的神经元里。SOM用于波长选择的原理是在同一神经元里的波长点性质相似,只要从每个神经元里选择一个代表性的波长点,那么用这些代表性的波长点就可以代替所有波长点,可以在不损失信息的情况下,减少变量的个数来简化模型[47]

7Tikhonov正则化方法

正则化方法TR是线性代数中为解决不适定问题而提出的方法:用一族与原不适定问题相“邻近”的适定问题的解去逼近原问题的解。Kalivas[48]将基于变分原理的Tikhonov正则化(Tikhonov regularization, TR)方法用到化学计量学中,取得了很好的效果。TR方法的一般形式是

(XTX+λLTL)b = XTy            (5-2)

基于最小二乘思路:

min(||Xb-y||aa+λ||Lb||bb)        (5-3)

其中L代表正则化算子,λ是控制第一项和第二项比例的惩罚参数。左边的一项是代表模型偏差(准确度);右边一项是模型的尺寸,相应地代表模型的方差(精确度)。如果a=2b=1,即采用一范数对模型进行约束,这时TR就可以用于波长选择
为您推荐
您可能想找: 气相色谱仪(GC) 询底价
专属顾问快速对接
立即提交
可能感兴趣
手机版: 波长选择方法
品牌合作伙伴