主题:【分享】选择PLS校正的最佳(适宜)因子数的方法有哪些?

浏览0 回复0 电梯直达
Insm_68f50e17
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
作为一种最常用的多元校正方法,PLS建模过程中关键的一步在于因子数(潜变量数、隐变量数或者主成分数)的确定。因子数是原始光谱数据转换到PLS空间后应保留的最优模型维数。保留的因子数太少,未将与待测组分相关的有用信息拟合到模型中来,模型预测能力就会降低,即欠拟合(Underfit)。反之,如果因子数过大,会将一些无关噪音引入到模型中,也导致模型预测能力降低,即过拟合(Overfit)。因此,确定合理的建模因子数目,对于模型预测能力的提高有很大影响。

因子数确定最主要的方法是交叉验证法,包括留一交叉验证、k-折交叉验证、留多交叉验证和蒙特卡罗交叉验证等:

1)留一交叉验证(LOOCV),只拿出校正集中的一个样本当作验证集,用剩余的校正集样本进行建模。这个步骤一直持续到每个样本都被预测一次且仅被预测一次。

2k-折交叉验证(K-folds cross validation, k-folds CV),将校正集的样本分割成k个子样本集,一个单独的子样本集被保留作为验证集,其他k-1个子样本集合并起来用来建模。交叉验证重复k次,每个子样本集验证一次。该方法可缓解LOOCV的耗时问题。

3)留多交叉验证(Leave multiple cross validation, LMOCV),该方法和上述两种方法比较类似。

4)蒙特卡罗交叉验证(Monte Carlo cross validation, MCCV),把原始校正集随机分成建模集和验证集两部分,进行交叉验证。重复进行若干次,计算预测残差平方和(PRESS)或交叉验证均方根误差(RMSECV)的平均值,进而根据PRESSRMSECV值选择最佳因子数。

利用交叉验证得到的每个因子数下的PRESS或者RMSECV与因子数作图,曲线最低值对应的因子数即为模型的最佳因子数。然而,曲线的最低点有时难以确定,就需要结合一些“软规则”,包括贝叶斯信息标准(BIC)、F检验以及Adjusted Wolds R规则等进行因子数的选择。除了交叉验证,确定因子数的方法还有杠杆率校正法、PoLiSh-PLS方法、RT、偏差方差平衡法和独立因子诊断等,使用时可以根据需要选择不同的方法。
为您推荐
您可能想找: 气相色谱仪(GC) 询底价
专属顾问快速对接
立即提交
可能感兴趣
品牌合作伙伴