主题:【原创】打算开班讲讲多元校正在近红外的应用,你是想听呢还是想听呢?

浏览0 回复50 电梯直达
savedown
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
开个玩笑。

看到版内很多人对PLS等的问题,打算和大家聊聊。

征集感兴趣话题,和大家交流。
该帖子作者被版主 阳光不锈4积分, 2经验,加分理由:很多人都想听听lz的意见,感谢分享心得与经验
为您推荐
您可能想找: 近红外光谱(NIR) 询底价
专属顾问快速对接
立即提交
savedown
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
多元校正,也就是多变量分析,或者多元(多变量)统计分析,不同领域叫法不同,化学计量学中通常将问题归纳为多元校正问题。

PLS偏最小二乘就大家最熟悉的,也是最成熟的一种多元校正方法。

元:根本的、独立的变量的意思。
该帖子作者被版主 b-j_s-h2积分, 2经验,加分理由:鼓励分享~
savedown
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
说到多变量,就先从单变量说起。

所谓单变量,就是指响应值只有一个因素(变量),例如称重,有多大的质量,在台称上就有多少读数,如果不考虑基础读数,只要有一次确定的对应关系测量,就能得到因变量和自变量的确定关系,即:

y=ax, 只要知道一个x和y的测量对应,就能确定a;

如果考虑基础读数,即:
y=ax+b, 只要知道二个x和y的测量对应,就能确定a和b;

如果没有随机性的影响,也就是噪声或随机误差,无论测量多少次,得到的结果都是一样的,其实这就是初中的一元(或二元)一次方程确定求解问题。

如果存在随机性,那么每次测量的结果都不一样,但是随着测量次数增多,测量结果就趋向确定,通常获取这种趋向于确定结果的方法就是 最小二乘,注意没有“偏”字。
该帖子作者被版主 yangguangbuxiu1积分, 2经验,加分理由:鼓励一下 加油
savedown
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
从单变量问题就可以知道,变量与测量响应是否能对应描述与测量次数有关,单变量问题只需测量一次。
而存在基底或基础值的情况,实际上是多变量问题,一个是体系的变化量,另一个是作为常量的变量,所以需要测量两次。

而更多的测量数据实际上是多余的,即“冗余”,必要的数据冗余对于消除随机性的影响是必须的。
savedown
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
简单的提过单变量的概念,接着就开始聊多变量。

近红外这一段和紫外和通常的红外不同,出峰的特征性不强,如果采用特征峰方法缺乏操作的普遍性。

特征峰方法,实际上是单变量思维,在特征峰位置,峰响应远强于其他响应,可以把其他响应当做干扰和基底,认为峰位置的响应值基本上由该物质引起,也就是该物质量是起作用的单变量。

所以在原来的分析思维中,近红外就是很鸡肋的东西,加上设备也不便宜,基本上处于丑小鸭和灰姑娘的地位。

直到多元校正技术发展后,解决了多变量的求解和描述问题,近红外才得以登堂入室,这几年在非接触测量等方面表现不俗,大家才发现灰姑娘穿上水晶鞋以后的魅力,所以近红外的水晶鞋就是多变量分析(多元校正)。

想到哪写到哪,谢谢斑竹的鼓励。
该帖子作者被版主 yangguangbuxiu1积分, 2经验,加分理由:要是有实例分析就更好了 呵呵
savedown
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
分析的问题不外定性定量两类,可以归结为体系的确定描述问题。
“单变量”需要一个“确定的对应”来描述,那么“多变量”就需要多个“确定的对应”来描述。
体系是否能确定描述问题,大家可以回忆一下物化里的相律,不知道是否还有印象?
分析问题通常是恒温、恒压、均相、稳态下完成,那么,自由度就只与体系的独立组成成分有关,简单地说就是:几个组分组成就需要几个“确定的对应”关系,这里涉及到几个概念:自由度、组分数、独立的变量,而多元分析通常都是以矩阵表达,又引出一个“秩”的概念,到了化学计量学,为了以示专业性,强调为“化学秩”。

说了这么多,头有点晕?

其实也不要过于细究,归结到“多少组数据能够完成建模”就行了。
该帖子作者被版主 b-j_s-h2积分, 2经验,加分理由:欢迎讲座~~
b-j_s-h
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
谢谢lz,很不错的讲座!

计量学的相关知识确实是很多近红外的从业人员都很急需也很欠缺的~

欢迎lz多多讲座、分享,也欢迎各位版友多多讨论、交流!

嘿嘿,置顶了,让更多版友关注~~
赞贴
0
收藏
0
拍砖
0
2011/10/27 9:34:17 Last edit by b-j_s-h
xiaogeer
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
相当不错的讲座,肯定会有帮助
该帖子作者被版主 b-j_s-h1积分, 2经验,加分理由:欢迎一起讨论~
savedown
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
这两天事情多一点,没往下说,继续。


前面谈到“建模所需样本”问题,这是多元校正的一个基本问题。

一元校正需要一个样本,那么,n元就需要n个样本就够了?

回答正确!

如果满足了前提假设:没有噪声。的确是这样。
但是如果噪声存在,要得到确定解,就需要无穷个样本!
这也太坑爹了 :(

但实际上,我们对不确定性的容忍不一样,样本的数量也可以不同,高信噪比的测定,可以需要较少的样本数。

从噪声的角度来说,样本数量越多,所建立的多元校正模型确定性越高。

除了噪声,还有别的因素吗?有的。

谈到多元校正,一个默认的前提是“线性描述”。
而实际上,线性只是梦中才会出现好事,俗称为“理想”。

偏离线性的体系,能用线性描述吗?如果能够凑合,那就能!

~~~~~~把不理想的日子过得理想了,那就是幸福~~~~~~~

回忆一下高数里面有个人告诉我们:

函数可以展开为1次+2次+3次+。。。。。的多项式的和

那个人叫泰勒,他展开了非线性的函数,从此任何非线性的函数都可以线性函数来凑合表达,即:一定的值域内,函数可以近似表达为一次函数和高价无穷小的和。

~~~~~这里又是一个人生的启迪:理想有多远,你就滚多远~~~~ :P

根据线性展开近似,在值域范围内可以近似用线性表达。朗伯和比尔一起告诉了我们这个分析化学的规律,然后Kubelka和Munk把这个道理在漫反射测量中又讲了一遍。

对于更广的值域怎么办?可以分段,一元的时候就是这么干的,不同的回归方程对应不同的浓度。

对于多元,可以采用比实际存在的体系组分数更多的变量来凑合。既然是凑合的,就存在了风险。

风险就是如果建模的样本和被预测的样本在含量上存在差异,这种差异如果不在建模范围内,那么预测的准确性就不可控了。

为了增强模型可控的势力范围,一种粗暴的办法是尽可能的增加建模样本,把范围尽可能广,这直接导致了人们对近红外建模的恐惧感。
该帖子作者被版主 b-j_s-h3积分, 2经验,加分理由:鼓励分享~
savedown
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
另外,由于实际体系和建模样本之间很难说组分的组成就是一致的,也就是说,实际体系可能是A、B、C组成,而建模样本可能只是A和B构成。
为了避免这种情况,样本量就尽可能大,达到能尽可能包括。

这样一来,建模就是一件非常需要投入才能做好的事情。尤其是要建立一个广泛的模型,有时候似乎是一件不可完成的任务。
该帖子作者被版主 b-j_s-h2积分, 2经验,加分理由:鼓励分享~
savedown
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
说了很多,似乎还没进入正题? :)

其实已经进入多元校正最关键的问题之一了,就是建模样本如何选择的问题。

前文说到建模样本的量要求很大,这是近红外让人很恼的事情。

但是如果样本的质量高,每个样本点都是有效的话,其实样本的数量远没有想象的那么大。

这里就需要把握几个原则。

一是样本的差异性。
作为一元的单变量,也就是平常的标准曲线法,这是不用强调的。因为单变量,自己和自己不用差异,每次测量的差异不同是由于不确定性引起的,所以测量次数越多,不确定性影响就越小了。

而作为多元就不同了,举个例子:一斤柿子和一斤梨花了5块钱,两斤柿子和两斤梨花了10块钱,您能告诉我柿子和梨各多少钱一斤吗?

显然不能,因为这是一个相关采样,这样的样本再多也没有用。

必须增加一个一斤柿子和两斤梨花了8块钱的样本,才能知道柿子和梨多少钱。

道理简单,可是做起来的时候就未必想得到了。

注意:取样本的时候,样本中各组分的组成配比差异分布越广泛越好。
该帖子作者被版主 b-j_s-h2积分, 2经验,加分理由:鼓励分享~
猜你喜欢最新推荐热门推荐更多推荐
品牌合作伙伴