原文由 savedown(savedown) 发表:
说了很多,似乎还没进入正题? :)
其实已经进入多元校正最关键的问题之一了,就是建模样本如何选择的问题。
前文说到建模样本的量要求很大,这是近红外让人很恼的事情。
但是如果样本的质量高,每个样本点都是有效的话,其实样本的数量远没有想象的那么大。
这里就需要把握几个原则。
一是样本的差异性。
作为一元的单变量,也就是平常的标准曲线法,这是不用强调的。因为单变量,自己和自己不用差异,每次测量的差异不同是由于不确定性引起的,所以测量次数越多,不确定性影响就越小了。
而作为多元就不同了,举个例子:一斤柿子和一斤梨花了5块钱,两斤柿子和两斤梨花了10块钱,您能告诉我柿子和梨各多少钱一斤吗?
显然不能,因为这是一个相关采样,这样的样本再多也没有用。
必须增加一个一斤柿子和两斤梨花了8块钱的样本,才能知道柿子和梨多少钱。
道理简单,可是做起来的时候就未必想得到了。
注意:取样本的时候,样本中各组分的组成配比差异分布越广泛越好。