主题:【讨论】如何避免建模过程中的过拟合?

浏览0 回复13 电梯直达
武灵
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
    虽然有专业化的化学计量学软件,但在建立和维护近红外模型,却依然会遇到很多问题。请问,如何避免建模过程中的过拟合?
该帖子作者被版主 firesea1积分, 2经验,加分理由:发起讨论话题
为您推荐
您可能想找: 气相色谱仪(GC) 询底价
专属顾问快速对接
立即提交
可能感兴趣
athosmi
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
看过拟合的原因了。
如果是配制的样品中某些成分线性相关了,那必然过拟合。
如果是波段选择不当,一般用正交验证就能查出过拟合了,不过我遇到的大部分这种情况都是波段选择不当,比如选择了信号噪声比较大的部分……
其他还有什么情况我就一时想不起来了……
该帖子作者被版主 zhonghuashendun2积分, 2经验,加分理由:积极讨论
武灵
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
原文由 athosmi(athosmi) 发表:
看过拟合的原因了。
如果是配制的样品中某些成分线性相关了,那必然过拟合。
如果是波段选择不当,一般用正交验证就能查出过拟合了,不过我遇到的大部分这种情况都是波段选择不当,比如选择了信号噪声比较大的部分……
其他还有什么情况我就一时想不起来了……
athosmi老师可以针对这两点细致讲一下吗?如果有参加原创大赛的文章就更好了。
武灵
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
原文由 athosmi(athosmi) 发表:
看过拟合的原因了。
如果是配制的样品中某些成分线性相关了,那必然过拟合。
如果是波段选择不当,一般用正交验证就能查出过拟合了,不过我遇到的大部分这种情况都是波段选择不当,比如选择了信号噪声比较大的部分……
其他还有什么情况我就一时想不起来了……
波段选择不当如何引起过拟合呢?这个没有理解。
reeroo
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
我认为在PLS算法中,产生过拟合主要是两个原因:

1.calibration样品数量不足,或者代表性不好,或者说validation或test样品的变异范围超出calibration样品。
解决方法是收集更多更有代表性样品。这个很好理解,但做起来较难。

2.使用cross validation时,一味追求更低的secv或rmsecv,使用了过高的维数,导致引入噪音增多,产生过拟合。
解决方法是:误差水平差不多时,尽量选较低维数,样品量允许时,尽量用test validation来看看是否过拟合。
该帖子作者被版主 zhonghuashendun3积分, 2经验,加分理由:深入解答!
reeroo
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
原文由 athosmi(athosmi) 发表:
看过拟合的原因了。
如果是配制的样品中某些成分线性相关了,那必然过拟合。
如果是波段选择不当,一般用正交验证就能查出过拟合了,不过我遇到的大部分这种情况都是波段选择不当,比如选择了信号噪声比较大的部分……
其他还有什么情况我就一时想不起来了……


如果自己配制样品,一定要看下成分之间是否存在相关性,否则必然过拟合。天然产物类的一般就没有这个问题。

你说的正交验证是指cross validation吗?如果是选择了波段不当,cross validation的效果应该就不好吧,应该不会过拟合。
carrie_yaxin
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
原文由 reeroo(reeroo) 发表:
我认为在PLS算法中,产生过拟合主要是两个原因:

1.calibration样品数量不足,或者代表性不好,或者说validation或test样品的变异范围超出calibration样品。
解决方法是收集更多更有代表性样品。这个很好理解,但做起来较难。

2.使用cross validation时,一味追求更低的secv或rmsecv,使用了过高的维数,导致引入噪音增多,产生过拟合。
解决方法是:误差水平差不多时,尽量选较低维数,样品量允许时,尽量用test validation来看看是否过拟合。
额,从哪个地方可以看出模型是否过拟合呢?
reeroo
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
原文由 carrie_yaxin(carrie_yaxin) 发表:
原文由 reeroo(reeroo) 发表:
我认为在PLS算法中,产生过拟合主要是两个原因:

1.calibration样品数量不足,或者代表性不好,或者说validation或test样品的变异范围超出calibration样品。
解决方法是收集更多更有代表性样品。这个很好理解,但做起来较难。

2.使用cross validation时,一味追求更低的secv或rmsecv,使用了过高的维数,导致引入噪音增多,产生过拟合。
解决方法是:误差水平差不多时,尽量选较低维数,样品量允许时,尽量用test validation来看看是否过拟合。
额,从哪个地方可以看出模型是否过拟合呢?


过拟合(overfit)就是说校正集样品过度拟合,建立模型时校正集拟合很好,但预测样品时误差却大。用检验集检验或在实际使用中都可能会发生。
该帖子作者被版主 firesea1积分, 2经验,加分理由:回复话题
carrie_yaxin
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
原文由 reeroo(reeroo) 发表:
原文由 carrie_yaxin(carrie_yaxin) 发表:
原文由 reeroo(reeroo) 发表:
我认为在PLS算法中,产生过拟合主要是两个原因:

1.calibration样品数量不足,或者代表性不好,或者说validation或test样品的变异范围超出calibration样品。
解决方法是收集更多更有代表性样品。这个很好理解,但做起来较难。

2.使用cross validation时,一味追求更低的secv或rmsecv,使用了过高的维数,导致引入噪音增多,产生过拟合。
解决方法是:误差水平差不多时,尽量选较低维数,样品量允许时,尽量用test validation来看看是否过拟合。
额,从哪个地方可以看出模型是否过拟合呢?


过拟合(overfit)就是说校正集样品过度拟合,建立模型时校正集拟合很好,但预测样品时误差却大。用检验集检验或在实际使用中都可能会发生。
那请教一下“与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值。”这边的偏差与标准差的区别?是与标准偏差一样吗?
reeroo
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
原文由 carrie_yaxin(carrie_yaxin) 发表:
原文由 reeroo(reeroo) 发表:
原文由 carrie_yaxin(carrie_yaxin) 发表:
原文由 reeroo(reeroo) 发表:
我认为在PLS算法中,产生过拟合主要是两个原因:

1.calibration样品数量不足,或者代表性不好,或者说validation或test样品的变异范围超出calibration样品。
解决方法是收集更多更有代表性样品。这个很好理解,但做起来较难。

2.使用cross validation时,一味追求更低的secv或rmsecv,使用了过高的维数,导致引入噪音增多,产生过拟合。
解决方法是:误差水平差不多时,尽量选较低维数,样品量允许时,尽量用test validation来看看是否过拟合。
额,从哪个地方可以看出模型是否过拟合呢?


过拟合(overfit)就是说校正集样品过度拟合,建立模型时校正集拟合很好,但预测样品时误差却大。用检验集检验或在实际使用中都可能会发生。
那请教一下“与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值。”这边的偏差与标准差的区别?是与标准偏差一样吗?


你说这个貌似和过拟合不是一个概念吧。这个应该是判断出一组数据中异常数据的方法,标准差代表一组数据的离散程度,计算方法是所有数据与平均值偏差的平方和,除以个数,再开根号。
firesea
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
猜你喜欢最新推荐热门推荐更多推荐
品牌合作伙伴