原文由 athosmi(athosmi) 发表:
看过拟合的原因了。
如果是配制的样品中某些成分线性相关了,那必然过拟合。
如果是波段选择不当,一般用正交验证就能查出过拟合了,不过我遇到的大部分这种情况都是波段选择不当,比如选择了信号噪声比较大的部分……
其他还有什么情况我就一时想不起来了……
原文由 reeroo(reeroo) 发表:额,从哪个地方可以看出模型是否过拟合呢?
我认为在PLS算法中,产生过拟合主要是两个原因:
1.calibration样品数量不足,或者代表性不好,或者说validation或test样品的变异范围超出calibration样品。
解决方法是收集更多更有代表性样品。这个很好理解,但做起来较难。
2.使用cross validation时,一味追求更低的secv或rmsecv,使用了过高的维数,导致引入噪音增多,产生过拟合。
解决方法是:误差水平差不多时,尽量选较低维数,样品量允许时,尽量用test validation来看看是否过拟合。
原文由 carrie_yaxin(carrie_yaxin) 发表:原文由 reeroo(reeroo) 发表:额,从哪个地方可以看出模型是否过拟合呢?
我认为在PLS算法中,产生过拟合主要是两个原因:
1.calibration样品数量不足,或者代表性不好,或者说validation或test样品的变异范围超出calibration样品。
解决方法是收集更多更有代表性样品。这个很好理解,但做起来较难。
2.使用cross validation时,一味追求更低的secv或rmsecv,使用了过高的维数,导致引入噪音增多,产生过拟合。
解决方法是:误差水平差不多时,尽量选较低维数,样品量允许时,尽量用test validation来看看是否过拟合。
原文由 reeroo(reeroo) 发表:那请教一下“与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值。”这边的偏差与标准差的区别?是与标准偏差一样吗?原文由 carrie_yaxin(carrie_yaxin) 发表:原文由 reeroo(reeroo) 发表:额,从哪个地方可以看出模型是否过拟合呢?
我认为在PLS算法中,产生过拟合主要是两个原因:
1.calibration样品数量不足,或者代表性不好,或者说validation或test样品的变异范围超出calibration样品。
解决方法是收集更多更有代表性样品。这个很好理解,但做起来较难。
2.使用cross validation时,一味追求更低的secv或rmsecv,使用了过高的维数,导致引入噪音增多,产生过拟合。
解决方法是:误差水平差不多时,尽量选较低维数,样品量允许时,尽量用test validation来看看是否过拟合。
过拟合(overfit)就是说校正集样品过度拟合,建立模型时校正集拟合很好,但预测样品时误差却大。用检验集检验或在实际使用中都可能会发生。
原文由 carrie_yaxin(carrie_yaxin) 发表:原文由 reeroo(reeroo) 发表:那请教一下“与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值。”这边的偏差与标准差的区别?是与标准偏差一样吗?原文由 carrie_yaxin(carrie_yaxin) 发表:原文由 reeroo(reeroo) 发表:额,从哪个地方可以看出模型是否过拟合呢?
我认为在PLS算法中,产生过拟合主要是两个原因:
1.calibration样品数量不足,或者代表性不好,或者说validation或test样品的变异范围超出calibration样品。
解决方法是收集更多更有代表性样品。这个很好理解,但做起来较难。
2.使用cross validation时,一味追求更低的secv或rmsecv,使用了过高的维数,导致引入噪音增多,产生过拟合。
解决方法是:误差水平差不多时,尽量选较低维数,样品量允许时,尽量用test validation来看看是否过拟合。
过拟合(overfit)就是说校正集样品过度拟合,建立模型时校正集拟合很好,但预测样品时误差却大。用检验集检验或在实际使用中都可能会发生。