主题：【分享】选择PLS校正的最佳（适宜）因子数的方法有哪些?

浏览0 回复0 电梯直达

Insm_68f50e17

结帖率：

100%

关注：0 |粉丝：0

新手级：新兵

发表于：2024/06/17 20:25:59 楼主管理分享倒序浏览只看楼主回复私聊

：作为一种最常用的多元校正方法，PLS建模过程中关键的一步在于因子数（潜变量数、隐变量数或者主成分数）的确定。因子数是原始光谱数据转换到PLS空间后应保留的最优模型维数。保留的因子数太少，未将与待测组分相关的有用信息拟合到模型中来，模型预测能力就会降低，即欠拟合（Underfit）。反之，如果因子数过大，会将一些无关噪音引入到模型中，也导致模型预测能力降低，即过拟合（Overfit）。因此，确定合理的建模因子数目，对于模型预测能力的提高有很大影响。

因子数确定最主要的方法是交叉验证法，包括留一交叉验证、k-折交叉验证、留多交叉验证和蒙特卡罗交叉验证等：

（1）留一交叉验证（LOOCV），只拿出校正集中的一个样本当作验证集，用剩余的校正集样本进行建模。这个步骤一直持续到每个样本都被预测一次且仅被预测一次。

（2）k-折交叉验证（K-folds cross validation, k-folds CV），将校正集的样本分割成k个子样本集，一个单独的子样本集被保留作为验证集，其他k-1个子样本集合并起来用来建模。交叉验证重复k次，每个子样本集验证一次。该方法可缓解LOOCV的耗时问题。

（3）留多交叉验证（Leave multiple cross validation, LMOCV），该方法和上述两种方法比较类似。

（4）蒙特卡罗交叉验证（Monte Carlo cross validation, MCCV），把原始校正集随机分成建模集和验证集两部分，进行交叉验证。重复进行若干次，计算预测残差平方和（PRESS）或交叉验证均方根误差（RMSECV）的平均值，进而根据PRESS或RMSECV值选择最佳因子数。

利用交叉验证得到的每个因子数下的PRESS或者RMSECV与因子数作图，曲线最低值对应的因子数即为模型的最佳因子数。然而，曲线的最低点有时难以确定，就需要结合一些“软规则”，包括贝叶斯信息标准（BIC）、F检验以及Adjusted Wold’s R规则等进行因子数的选择。除了交叉验证，确定因子数的方法还有杠杆率校正法、PoLiSh-PLS方法、RT、偏差方差平衡法和独立因子诊断等，使用时可以根据需要选择不同的方法。