近红外光谱分析中建模样品优选方法的研究
作者:王丽杰,郭建英,徐可欣
摘要:结合牛奶成分
近红外光谱测量系统的实例,在已定的浓度范围内针对牛奶中脂肪、蛋白质、乳糖三成分采用正交设计法优选参与建模的样品。研究中首次利用正交表的“正交性”原理优选建模样品,并针对牛奶中脂肪浓度的测量采用偏最小二乘(PLS)回归方法交互验证方式建立模型。在此基础上,将正交设计样品集与常规方法选择的样品集的脂肪PLS模型的预测结果进行了对比。实验结果表明:采用正交设计样品集与常规样品集分别建立的PLS模型的预测偏差之差低于0.02g/100g,上述两种方法PLS模型的实际预测浓度与参考浓度之差均集中在0.1g/100g,而后者样品数量约为前者的七倍。进一步的实验结果表明:从常规样品集的样品中随机抽取与正交设计样品集的样品数量相同的样品作为随机样品集并建模,其PLS模型的预测偏差高于常规方法的两倍、相关系数相对较低,并且其实际预测浓度与参考浓度之差集中在0.4g/100g。
关键词:近红(NIR)光谱分析;正交设计法;正交性;牛奶;偏最小二乘(PI )回归
引言
近红外光谱的数据处理分析通常由三部分构成:建模样品(校正集样品)的选择及光谱的预处理、定性或定量模型的建立、未知样品组成或性质的预测。由于校正集样品的选择及其基础数据测量的准确性直接关系到所建模型的适用性和测试结果的准确性,因此,校正集样品的选择是
近红外光谱数据处理及分析的关键环节。
校正集样品的选择过程中,样品的光谱特征及其性质范围应能涵盖以后未知样品的光谱特征。为保证校正模型的稳健性,校正集的样品数一般不应低于50个,且在所测的浓度或性质范围内,样品的个数应该是均匀分布的【l】。通常校正集样品的确定有常规选择和计算机识别两种方法【l】。常规选择是根据样品光谱的积累和性质或组成数据的分布来选择建立校正集的样品,并通过部分样品进行验证。计算机识别则是纯粹通过确定的计算模型,用计算机来识别所采集样品的光谱间差距,确定适合校正集的样品。依照常规方法建立校正样品集,其最大缺点是必须积累大量的样品以供选择。而计算机识别方法在很大程度上减少了常规方法测量基础数据的样品数,降低了建模费用,但仍然存在一定的缺陷:1)仍然要收集大量的样品谱图以便于判断选择;2)有些光谱的差异并非完全由所测样品的组成或性质差异引起,可能是某些随机因素如样品的温度、粒径大小、物粒形态等因素的差异造成;3)对不同的性质在最佳样品集的选择上可能存在差异,而仅从光谱的差异上有时难以体现;4)对那些含量较低的成分,其量的变化对整个谱图而言往往并不明显,此时如光谱处理方法不合理,也难以选出合适的样品集。
针对上述情况,研究中首次提出了一种利用正交表的“正交性”原理优选校正集样品的方法,并结合牛奶的
近红外光谱测量的实例对其可行性进行了探讨,该方法的研究对于光谱分析中校正集样品的优化选择具有重要的研究价值。
1 校正样品集选择方法
正交设计法是以相关专业知识及概率论和数理统计为基础,利用数学上的“正交性”原理编制并已标准化的表格——正交表来科学安排试验方案、并对试验结果进行计算、分析、找出最优或较优的条件的数学方法。
利用正交表安排试验方案搭配均衡具有代表性,因为对全体因素而言,正交设计是一种部分试验,但对于其中任何两个因素而言确是带有等重复的全面试验。由于正交试验设计要求任何两个因素是全面试验,因此试验点在优选区的分布是均匀分布的,每个试验点都有强烈的代表性,能够比较全面地反映优选区内的大致情况,并能保证主要因素的各种可能搭配都不会漏掉。
研究中采用正交表的“正交性”原理选择校正集样品。结合牛奶成分
近红外光谱测量系统的开发(系统测量原理图见图1所示),采用L8l 9 3正交表进行校正集样品优选。根据牛奶中脂肪、蛋白质及乳糖等成分浓度的常规范围确定相应浓度(单位:g/100g)范围分别为:脂肪:2.5~5.5,蛋白质:2.8~4.8,乳糖:4.4~5.4。在上述浓度范围内,根据典型样品浓度特性设计脂肪、蛋白质及乳糖3因素、9水平(脂肪:2.5、2.87、3.24、3.61、3.98、4.35、4.72、5.09、5.46,蛋白质:2.8、3.05、3.3、3.55、3.8、4.05、4.3、4.55、4.8,乳糖:4.4、4.52、4.64、4.76、4.88、5、5.12、5.24、5.36)浓度分配方案,共计81个样品。不考虑成分因素间的交互作用,采用上述方案选择校正样品集样品的脂肪、蛋白质及乳糖三成分浓度空间散点图见图2,其中脂肪与蛋白质两成分散点图见图3。(图略)
2 实验与数据分析
采用自制系统样机,针对不同区域、不同种类、不同季节及不同哺乳时期奶牛的牛奶漫反射光谱进行收集整理,共得407个样品光谱。将其作为备用样品集,从中选取与正交设计方案中的样品浓度最接近的样品共计61个(以脂肪为准)作为正交设计校正样品集。然后,针对正交设计校正样品集和全校正样品集(将407个样品全部作为校正集样品)采用偏最d'-乘(PLS)方法交互验证方式分别建立脂肪的校正模型,并应用这两种模型分别对全部407个样品的脂肪浓度进行实际预测,交互验证及实际预测参数见表1,407个样品中脂肪浓度的实际预测值与参考值间的对比结果见表2。
从表l可以看出:正交设计校正样品集与全校正样品集的交互验证结果中,交互验证相关系数 相差0.0038、交互验证均方根偏差(Root Mean Square Error ofCross Validation,RMSECV)相差0.0195,预测相关系数 相差o.0032、预测均方根偏差(Rot Mean Square Error ofPrediction,RMSEP)相差0.0173。采用PLS校正模型分别对全部407个样品进行实际预测时,相关系数 相差0.0015、RMSEP相差0.0112。从表2可以看出:正交设计校正样品集与全校正样品集对所有407个样品的实际预测浓度与参考浓度间的偏差均集中在O.1g/100g左右。
表l、表2同时列出了全部样品中随机选取的61个样品作为校正集(称为随机校正样品集)的PLS1模型的交互验证结果及其对全部407个样品的实际预测结果,从中可以看出随机校正样品集的预测偏差是全校正样品集的预测偏差的两倍、相关系数相对降低,并且随机校正样品集对所有407个样品的实际预测浓度与参考浓度间的偏差集中在0.4左右。
3 小结
实验结果表明:正交设计校正样品集与全校正样品集的预测偏差之差在0.02g/100g以内,实际预测浓度与参考浓度间的偏差均集中在O.1g/100g左右,而正交设计校正样品集中样品数量是全校正样品集的样品数量的七分之一。进一步的实验结果表明:随机校正样品集的预测偏差是全校正样品集预测偏差的两倍、且相关系数相对降低,其实际预测浓度与参考浓度间的偏差集中在0.4g/100g左右。
可见,正交设计校正集样品(61个)在全部样品中具有代表性,如果将81个样品光谱全部收集作为正交设计校正样品集,预计预测偏差将会进一步缩小。因此,利用正交表的“正交性”原理进行建模过程中校正集样品的优选具有实用性,该方法的研究不仅为
近红外光谱分析中校正集样品的优选提供了可参考的方法,而且对于校正模型的优化及提高测试结果的准确性等方面均具有重要的意义。