主题:【第十三届原创】几种波段选择方法原理及应用

浏览0 回复0 电梯直达
导演叫我趴下脸着地
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
维权声明:本文为Insp_f6c3db88原创作品,本作者与仪器信息网是该作品合法使用者,该作品暂不对外授权转载。其他任何网站、组织、单位或个人等将该作品在本站以外的任何媒体任何形式出现均属侵权违法行为,我们将追究法律责任。
几种波段选择方法原理及应用

近红外光谱数据的波段数有个,特征维度较多,数据量较大,不同波段之间的信息冗余度高,具有一定的重叠性。本实验所用的试验样品是由多个成分组成的混合物,这样采集的近红外光谱就会由于没有混合均匀等原因常常掺杂着一些对非目标组分的吸收,导致光谱数据中的某些波段与样品的性质之间是比较差的关联关系,甚至是有一些关联关系是错误的,这就容易出现部分波段信息冗余的现象。同时,也会有其他一些因素对近红外光谱的准确性产生不利影响。

因此,为了得到更加有利于建立模型的近红外光谱数据,需要对一些无用的噪声波段进行剔除,找出那些含有较高信息量、容易分离、彼此相关度较低的波段,这就需要对近红外光谱进行波段选择。通过波段选择从原始近红外光谱中选择包含大量有效信息的波段子集,这些波段在建模中起主要作用,这样不但可以大大降低近红外光谱的维度,提高模型建立的速度,而且可以将光谱中存在的噪声信息剔除掉,只保留对提升模型准确性有利的信息。本文使用的波段选择方法使皮尔森相关系数法和随机森林法。

皮尔森相关系数法

相关系数法[54]是将采集光谱的所有波段与颗粒的实际水分含量进行相关性计算,得到光谱每个波段与水分含量的相关系数。确定一定的阈值,将波段按照相关系数绝对值的大小进行排序,相关系数的绝对值超过阈值大小的波段保留下来,用这部分波段进行建模。

两个变量之间相关系数的大小在-1~1之间变化,当其中一个变量增大而另一个变量减小时,说明两个变量是负相关的,其相关系数为负数,并且相关系数越小,说明两个变量的负相关性越大;当其中一个变量增大,另一个变量也随之增大时,说明两个变量是正相关的,相关系数为正数,并且相关系数越大,说明两个变量间的正相关性越大。为了了解两个变量间的相关程度,以相关系数的绝对值|R|为标准判断两个变量的线性相关性大小,如下表所示。

表两个变量的相关性大小

相关系数绝对值|R|

相关性程度

0.95

显著性相关

0.8

高度相关

0.5≤|R|<0.8

中度相关

0.3≤|R|<0.5

低度相关

<0.3

关系极弱,认为不相关



皮尔森相关系数(Pearson Correlation Corfficient, PCC)是一种用来衡量两个变量间的线性相关程度的方法,其计算过程如下所示。

               



近红外光谱的所有光谱特征数据与水分数据进行Pearson相关系数分析,以相关系数绝对值|R|为标准,得到水分与光谱数据的相关关系如下表所示。

水分与光谱数据相关关系统计量

分布量纲

相关系数|R|

最小值

0.21

最大值

0.47

平均值

0.38



分别以相关系数绝对值|R|0.250.30.350.40.45为标准,选择大于此值的波段进行PLS进行建模,实验结果如下表所示。

相关系数法PLS建模比较

  评价参数



相关系数|R|

RMSECV

RMSEP

Rp

全波段

0.242

0.221

0.960

0.25

0.233

0.226

0.971

0.3

0.224

0.229

0.966

0.35

0.223

0.221

0.968

0.4

0.230

0.227

0.962

0.45

0.234

0.228

0.965



由上表可以看出,用全波段建模效果比用部分波段建模效果差,因为有些无用的波段会引入一些无用的噪声信息,导致对模型产生了干扰。而当|R|过大时,筛选的波段过多,有些对模型有益的有效信息也被过滤掉了,使得模型效果较差。当|R|大于0.25和大于0.35时模型预测的综合结果比较好,然而当|R|大于0.25时训练集和预测集的结果比|R|大于0.35时的结果相差较大,|R|大于0.35时的选择的波段建立的模型稳定性较好。因此,可以选择当|R|大于0.35时的波段进行建模。|R|大于0.35的光谱波段图如下图所示。

图相关系数绝对值|R|>0.35光谱波段



  图中,绿色方格线覆盖的波段为相关系数绝对值|R|>0.35的波段。图中可以看出,与水分相关系数比较高的地方都在波段908.1nm~1400nm之间,将全光谱的125个波段降低到了80个。

随机森林法

随机森林[55]是一种并行的bagging[56]集成学习算法。随机森林使用的数据采集方法为“自助采样法”,自主采样法在数据集较小的情况下会有较好的训练结果。从一个包含n样本的数据集M中每次随机取出一个样本,对样本进行记录后把该样本重新放回M中再进行随机取样,即有放回的随机取样,这样取出来的所有样本组成数据集D。重复采样n次,M中有一部分数据在D中重复出现多次,有一部分数据从来没有在D中出现过,一个样本被取到的概率为1/n,那么在n次采样过程中样本一直不被取到的概率为(1-1/n1/n,通过求极限可以得到

                                     



以采集的样本D作为训练集,以未采集的样本数据集P作为测试集。对数据集D进行训练,并在训练过程中加入随机属性选择,这样就得到了一个决策树算法的基学习器,然后把所有的基学习器组合起来,得到输出结果。在分类任务中,对每个基学习器对预测结果进行投票得到输出结果;在回归任务中,将每个基学习器的预测结果进行简单平均,求得的平均数作为最终的结果。近红外光谱水分预测是一个回归任务,因此选择随机森林回归法,基学习器的决策树为回归树,训练样本过将多个基学习器回归树进行训练,使用简单平均法获得预测结果,获得比单一回归树模型具有更高的预测准确率[57]。随机森林回归的示意图如下图所示。

随机森林回归示意图



随机森林回归算法中使用的基模型为CART回归树[58],特征空间的划分和每个单元的输出值由这些回归树来决定。在回归树中,选择最佳的划分点需要对每个特征的所有值进行遍历,直到取得某个特征的某个值,使得损失函数最小,这就是最佳的划分点。假设有n特征,每个特征有取值,将特征空间划分为M单元上输入对应的平均值,则该过程的公式如下:

                           



选择最佳的划分点后,回归树的方程为:

                                   



式中,I(x)为指示函数。

通过随机森林计算特征集中某一特征重要程度的过程如下:

1)从数据集M中通过随机自采样的方法获得数据集D,用数据集D作为训练集进行建模,用没采集到的数据集P进行验证,得到数据集P的误差,记作error1

2)生成一组随机噪声数据,将随机噪声干扰数据加入到数据集P的某一特征中,使得该特征对预测结果产生干扰,然后再次对数据集P的误差进行计算,记作error2

3)计算error2error1的差值。如果该特征是对预测结果起正向作用,则加入噪声数据后error2error1的差值一定大于0,反之则小于零。差值与这个特征对该模型预测精度的影响程度成正比。

4)如果随机森林中有N棵树,计算N棵树对该特征error2error1的差值的平均值,即

                                       



5)遍历数据集P中的所有特征,求出每个特征的重要性。

用随机森林回归法对光谱数据与水分含量进行建模,得到数据中特征重要性排名,其中排名前十的特征如图3-9所示。

随机森林特征选择排名前十的特征



特征重要性值的数据分布如下表所示。

随机森林特征重要性分布

数值分布

特征重要性

最小值

0.0022

1/4分位数

0.0041

中位数

0.0060

3/4分位数

0.0081

最大值

0.0692

平均值

0.0080



分别以随机森林特征重要性数值分布的1/4分位数、中位数、3/4分位数和平均值为选择标准,以大于这个标准的特征重要性组合成的特征波段进行PLS建模,选择最佳的波段组合。建模的结果如下表所示。

不同特征重要性的波段模型评价

  评价参数



特征重要性

RMSECV

RMSEP

Rp

全波段

0.242

0.221

0.960

0.0041

0.222

0.214

0.980

0.0060

0.216

0.209

0.983

0.0080

0.228

0.225

0.975

0.0081

0.232

0.230

0.96



很明显,通过随机森林方法计算出各个特征的重要性,以0.0060作为最低标准选择的波段用来建立PLS模型的效果最好。选择的波段如下图所示。

随机森林波段选择



  图中绿色背景的是通过随机森林选择的近红外光谱波段,其波段主要分布在908.1nm~1150nm1350nm~1500nm之间,将125个光谱波段降低到了60个,降维效果和模型评价效果均优于相关系数法。因此在流化床制粒过程近红外光谱的建模中应用随机森林法进行波段选择。
附件:
为您推荐
您可能想找: 近红外光谱(NIR) 询底价
专属顾问快速对接
立即提交
猜你喜欢最新推荐热门推荐更多推荐
品牌合作伙伴