近红外光谱分析必须借助于各种相应的数学模型,分析的关键是建立预测效果优秀的数学模型。数学模型预测样品的效果决定于建模所用数据,以及(用算法)对建模数据中信息的充分提取。NIR分析大致有一半的误差来自于建模数据。因此优化建模数据在NIR分析中具有特殊的意义。
近红外光谱分析需要从样品复杂的光谱中提取有关的信息,这些信息包括两部分:样品光谱中关于待测量的定性或定量信息,以及与待测量信息重叠在一起的、确定的、因此是可以通过模型加以校正的背景信息;由于分析过程必须把背景的信息加以校正后才能提取待测量的信息,因此待测量信息和能确定的背景信息这两部分信息合在一起都是
近红外光谱分析需要的有效信息。另外,每个光谱数据除了包含有效信息以外还包含测量误差等不确定的、难以校正的、干扰测定的无效信息或称干扰信息,分析过程根据这两部分有效信息通过数学处理消除干扰信息,才能完成分析。
建模过程应用的光谱数据越多,得到的有效信息就可能越多,预测误差减少、预测准确度也得以提高。这就使模型在不同时间与空间的稳定性得以提高;另一方面,建模过程中每引入一个光谱数据的同时会带来影响提取有效信息的干扰信息,使模型的预测误差增加、测定准确度下降。组成建模数据的两个部分:建模样品光谱的数目与每个光谱包含的数据点(谱区的前处理都应符合“少而精”,且有一个最佳值,即有效信息率最高点。优化建模数据的目标就是确定或接近该最佳点,使数学模型的预测效果达到或接近最佳值。优秀的软件应能辅助确定数学模型的最佳参数。
建模数据也就是建立数学模型所用校正样品集。校正样品集包括直接用于建立模型的建模样品集与检验模型的检验样品集。现代NIR分析包括一系列优化校正样品集光谱的技术,包括建模集与检验集的分割,优化校正样品集总体的样品组成以及优化各样品的光谱两个方面,如对建模样品集光谱的各种前处理方法,优化选择用于建立数学模型的谱区以及优化选择各种NIR定量分析算法的最佳参数等等多种多样的处理技术,由上节可知这些前处理技术的本质都是压缩和恢复,目标都是提高建模数据的有效信息率。
近红外光谱分析建模数据的各种前处理技术,以及这些技术针对解决的问题见下图。