主题:【分享】异常值识别与模型优化方法

浏览0 回复0 电梯直达
Ins_29253308
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
异常样品对模型的稳健性会产生严重的干扰,在建模过程中需要进行剔除。异常样品一般分为两大类,第一类是高杠杆值样品,其光谱远离整体样品的平均光谱;第二类是预测值与参考值具有显著差异的样品,由参考值测量误差大、光谱测量误差大、参考值录入错误及模型不适用等原因造成。对于定量分析,一般可以采用马氏距离和杠杆值剔除第一类异常样品,利用学生化残差剔除第二类异常样品。对于定性分析,常采用Hotellings T2检验或F检验进行异常样品(光谱)的剔除。

在剔除异常样品后,需要对模型进行优化,即选择合适的主成分或变量数建立模型。若所用的主成分或变量数过少,则可能未能充分利用信息,模型会欠拟合,导致模型预测精度下降;而主成分或变量数过多,则可能引入噪声,导致模型过拟合,使得模型稳定性变差。在实际建模中,一般采用交互验证方法进行模型优化,并根据交互验证误差(SECVRMSECV)或预测残差平方和(PRESS)最小来确定适宜的主成分或变量数。

在模型优化后,需要采用验证集样品对模型的有效性进行验证。验证集样品的选取一般要符合一定的要求。对于定量分析,一般采用验证标准误差(SEV)对校正模型有效性进行验证。对于定性分析,通常采用判别正确率对类模型的有效性进行验证。

具体的异常值识别、模型优化与有效性验证方法及验证样品选取标准参见国家标准GB/T 29858-2013GB/T37969-2019
为您推荐
您可能想找: 气相色谱仪(GC) 询底价
专属顾问快速对接
立即提交
猜你喜欢最新推荐热门推荐更多推荐
品牌合作伙伴