快速导航采购仪器提醒

近红外光谱（NIR）

版主:

入住本版

专家:

仪器信息网

居民列表

仪器社区 > 光谱 > 近红外光谱（NIR）帖子详情

快速回复发表新帖最新帖

主题：【讨论】如何避免建模过程中的过拟合？

浏览0 回复13 电梯直达

武灵

结帖率：

100%

关注：0 |粉丝：0

新手级：新兵

发表于：2013/10/11 16:47:56 楼主管理分享倒序浏览只看楼主回复私聊

虽然有专业化的化学计量学软件，但在建立和维护近红外模型，却依然会遇到很多问题。请问，如何避免建模过程中的过拟合？

该帖子作者被版主 firesea加 1积分， 2经验，加分理由：发起讨论话题

0
赞贴
13
回帖
0
收藏
0
拍砖
版主
招募

为您推荐

近期热榜

热门活动

您可能想找: 气相色谱仪(GC) 询底价

选参数看心得找厂商查方案

专属顾问快速对接

立即提交

可能感兴趣

athosmi

禁止发帖修改昵称

ID：athosmi

行业：其他

积分：0升级还需100积分

声望：0升级还需100声望

注册时间：0000-00-00

最后登录时间：0000-00-00

进入iLog 私信关注

结帖率：

100%

关注：0 |粉丝：0

新手级：新兵

2013/10/12 15:36:12 沙发管理分享倒序浏览只看楼主回复私聊

看过拟合的原因了。
如果是配制的样品中某些成分线性相关了，那必然过拟合。
如果是波段选择不当，一般用正交验证就能查出过拟合了，不过我遇到的大部分这种情况都是波段选择不当，比如选择了信号噪声比较大的部分……
其他还有什么情况我就一时想不起来了……

该帖子作者被版主 zhonghuashendun加 2积分， 2经验，加分理由：积极讨论

赞贴

拍砖

武灵

禁止发帖修改昵称

ID：zhonghuashendun

行业：其他

积分：0升级还需100积分

声望：0升级还需100声望

注册时间：0000-00-00

最后登录时间：0000-00-00

进入iLog 私信关注

结帖率：

100%

关注：0 |粉丝：0

新手级：新兵

2013/10/13 10:00:51 板凳管理分享倒序浏览只看楼主回复私聊

原文由 athosmi(athosmi) 发表:
看过拟合的原因了。
如果是配制的样品中某些成分线性相关了，那必然过拟合。
如果是波段选择不当，一般用正交验证就能查出过拟合了，不过我遇到的大部分这种情况都是波段选择不当，比如选择了信号噪声比较大的部分……
其他还有什么情况我就一时想不起来了……

athosmi老师可以针对这两点细致讲一下吗？如果有参加原创大赛的文章就更好了。

赞贴

拍砖

武灵

禁止发帖修改昵称

ID：zhonghuashendun

行业：其他

积分：0升级还需100积分

声望：0升级还需100声望

注册时间：0000-00-00

最后登录时间：0000-00-00

进入iLog 私信关注

结帖率：

100%

关注：0 |粉丝：0

新手级：新兵

2013/10/13 10:01:57 马扎管理分享倒序浏览只看楼主回复私聊

原文由 athosmi(athosmi) 发表:
看过拟合的原因了。
如果是配制的样品中某些成分线性相关了，那必然过拟合。
如果是波段选择不当，一般用正交验证就能查出过拟合了，不过我遇到的大部分这种情况都是波段选择不当，比如选择了信号噪声比较大的部分……
其他还有什么情况我就一时想不起来了……

波段选择不当如何引起过拟合呢？这个没有理解。

赞贴

拍砖

reeroo

禁止发帖修改昵称

ID：reeroo

行业：其他

积分：0升级还需100积分

声望：0升级还需100声望

注册时间：0000-00-00

最后登录时间：0000-00-00

进入iLog 私信关注

结帖率：

100%

关注：0 |粉丝：0

新手级：新兵

2013/10/14 17:19:37 地毯管理分享倒序浏览只看楼主回复私聊

我认为在PLS算法中，产生过拟合主要是两个原因：

1.calibration样品数量不足，或者代表性不好，或者说validation或test样品的变异范围超出calibration样品。
解决方法是收集更多更有代表性样品。这个很好理解，但做起来较难。

2.使用cross validation时，一味追求更低的secv或rmsecv，使用了过高的维数，导致引入噪音增多，产生过拟合。
解决方法是：误差水平差不多时，尽量选较低维数，样品量允许时，尽量用test validation来看看是否过拟合。

该帖子作者被版主 zhonghuashendun加 3积分， 2经验，加分理由：深入解答！

赞贴

拍砖

reeroo

禁止发帖修改昵称

ID：reeroo

行业：其他

积分：0升级还需100积分

声望：0升级还需100声望

注册时间：0000-00-00

最后登录时间：0000-00-00

进入iLog 私信关注

结帖率：

100%

关注：0 |粉丝：0

新手级：新兵

2013/10/14 17:25:35 地板管理分享倒序浏览只看楼主回复私聊

原文由 athosmi(athosmi) 发表:
看过拟合的原因了。
如果是配制的样品中某些成分线性相关了，那必然过拟合。
如果是波段选择不当，一般用正交验证就能查出过拟合了，不过我遇到的大部分这种情况都是波段选择不当，比如选择了信号噪声比较大的部分……
其他还有什么情况我就一时想不起来了……

如果自己配制样品，一定要看下成分之间是否存在相关性，否则必然过拟合。天然产物类的一般就没有这个问题。

你说的正交验证是指cross validation吗？如果是选择了波段不当，cross validation的效果应该就不好吧，应该不会过拟合。

赞贴

拍砖

carrie_yaxin

禁止发帖修改昵称

ID：carrie_yaxin

行业：其他

积分：0升级还需100积分

声望：0升级还需100声望

注册时间：0000-00-00

最后登录时间：0000-00-00

进入iLog 私信关注

结帖率：

100%

关注：0 |粉丝：0

新手级：新兵

2013/10/15 8:53:04 6楼管理分享倒序浏览只看楼主回复私聊

原文由 reeroo(reeroo) 发表:
我认为在PLS算法中，产生过拟合主要是两个原因：

1.calibration样品数量不足，或者代表性不好，或者说validation或test样品的变异范围超出calibration样品。
解决方法是收集更多更有代表性样品。这个很好理解，但做起来较难。

2.使用cross validation时，一味追求更低的secv或rmsecv，使用了过高的维数，导致引入噪音增多，产生过拟合。
解决方法是：误差水平差不多时，尽量选较低维数，样品量允许时，尽量用test validation来看看是否过拟合。

额，从哪个地方可以看出模型是否过拟合呢？

赞贴

拍砖

reeroo

禁止发帖修改昵称

ID：reeroo

行业：其他

积分：0升级还需100积分

声望：0升级还需100声望

注册时间：0000-00-00

最后登录时间：0000-00-00

进入iLog 私信关注

结帖率：

100%

关注：0 |粉丝：0

新手级：新兵

2013/10/15 10:58:35 7楼管理分享倒序浏览只看楼主回复私聊

原文由 carrie_yaxin(carrie_yaxin) 发表:
原文由 reeroo(reeroo) 发表:
我认为在PLS算法中，产生过拟合主要是两个原因：

1.calibration样品数量不足，或者代表性不好，或者说validation或test样品的变异范围超出calibration样品。
解决方法是收集更多更有代表性样品。这个很好理解，但做起来较难。

2.使用cross validation时，一味追求更低的secv或rmsecv，使用了过高的维数，导致引入噪音增多，产生过拟合。
解决方法是：误差水平差不多时，尽量选较低维数，样品量允许时，尽量用test validation来看看是否过拟合。
额，从哪个地方可以看出模型是否过拟合呢？

过拟合（overfit）就是说校正集样品过度拟合，建立模型时校正集拟合很好，但预测样品时误差却大。用检验集检验或在实际使用中都可能会发生。

该帖子作者被版主 firesea加 1积分， 2经验，加分理由：回复话题

赞贴

拍砖

carrie_yaxin

禁止发帖修改昵称

ID：carrie_yaxin

行业：其他

积分：0升级还需100积分

声望：0升级还需100声望

注册时间：0000-00-00

最后登录时间：0000-00-00

进入iLog 私信关注

结帖率：

100%

关注：0 |粉丝：0

新手级：新兵

2013/10/15 11:39:50 8楼管理分享倒序浏览只看楼主回复私聊

原文由 reeroo(reeroo) 发表:
原文由 carrie_yaxin(carrie_yaxin) 发表:
原文由 reeroo(reeroo) 发表:
我认为在PLS算法中，产生过拟合主要是两个原因：

1.calibration样品数量不足，或者代表性不好，或者说validation或test样品的变异范围超出calibration样品。
解决方法是收集更多更有代表性样品。这个很好理解，但做起来较难。

2.使用cross validation时，一味追求更低的secv或rmsecv，使用了过高的维数，导致引入噪音增多，产生过拟合。
解决方法是：误差水平差不多时，尽量选较低维数，样品量允许时，尽量用test validation来看看是否过拟合。
额，从哪个地方可以看出模型是否过拟合呢？

过拟合（overfit）就是说校正集样品过度拟合，建立模型时校正集拟合很好，但预测样品时误差却大。用检验集检验或在实际使用中都可能会发生。

那请教一下“与平均值的偏差超过三倍标准差的测定值，称为高度异常的异常值。”这边的偏差与标准差的区别？是与标准偏差一样吗？

赞贴

拍砖

reeroo

禁止发帖修改昵称

ID：reeroo

行业：其他

积分：0升级还需100积分

声望：0升级还需100声望

注册时间：0000-00-00

最后登录时间：0000-00-00

进入iLog 私信关注

结帖率：

100%

关注：0 |粉丝：0

新手级：新兵

2013/10/15 12:18:45 9楼管理分享倒序浏览只看楼主回复私聊

原文由 carrie_yaxin(carrie_yaxin) 发表:
原文由 reeroo(reeroo) 发表:
原文由 carrie_yaxin(carrie_yaxin) 发表:
原文由 reeroo(reeroo) 发表:
我认为在PLS算法中，产生过拟合主要是两个原因：

1.calibration样品数量不足，或者代表性不好，或者说validation或test样品的变异范围超出calibration样品。
解决方法是收集更多更有代表性样品。这个很好理解，但做起来较难。

2.使用cross validation时，一味追求更低的secv或rmsecv，使用了过高的维数，导致引入噪音增多，产生过拟合。
解决方法是：误差水平差不多时，尽量选较低维数，样品量允许时，尽量用test validation来看看是否过拟合。
额，从哪个地方可以看出模型是否过拟合呢？

过拟合（overfit）就是说校正集样品过度拟合，建立模型时校正集拟合很好，但预测样品时误差却大。用检验集检验或在实际使用中都可能会发生。
那请教一下“与平均值的偏差超过三倍标准差的测定值，称为高度异常的异常值。”这边的偏差与标准差的区别？是与标准偏差一样吗？