主题:【讨论】如何避免建模过程中的过拟合?

浏览0 回复13 电梯直达
可能感兴趣
athosmi
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
原文由 武灵(zhonghuashendun) 发表:
原文由 athosmi(athosmi) 发表:
看过拟合的原因了。
如果是配制的样品中某些成分线性相关了,那必然过拟合。
如果是波段选择不当,一般用正交验证就能查出过拟合了,不过我遇到的大部分这种情况都是波段选择不当,比如选择了信号噪声比较大的部分……
其他还有什么情况我就一时想不起来了……
athosmi老师可以针对这两点细致讲一下吗?如果有参加原创大赛的文章就更好了。


人为配置标准品时,可能会出现的几种情况导致模型建立过程中的过拟合问题(个人总结):

1、标准品中的成分过于简单,比如某种混合标准品只有AB两种物质,那不管如何建立模型结果都是会出现过拟合现象。原因就是,如果标准品只有两种物质组成,那么两种物质绝对呈线性负相关关系,A浓度高必然导致B浓度降低,相对A浓度降低B浓度也会随之升高。这种情况下若采用近红外全光谱建立模型,就会出现过拟合现象。

2、母液稀释,配置一种复杂的母液,然后将母液稀释成不同浓度的标准品,由于母液中所有的物质浓度都呈现相同倍数的降低,也就导致了所有物质浓度呈绝对线性正相关关系,进行近红外检测建模,就会导致过拟合现象。

3、配置时不小心造成某几种物质浓度接近线性,造成线性相关。

4、其他(暂时没想到)。

对于配置溶液物质浓度相关问题的检查方法:

有些软件中会带有浓度相关性检查的功能,只需要将每个样品中各物质浓度输入后,点击一下相关的按钮,然后看看各个物质之间浓度是否有线性相关的关系或者趋势即可。

如果没有相关功能,就把各样品的物质浓度输入到excel表格里,通过画点状图,观察各物质浓度是否有线性相关。

推荐配制方法:

正交实验设计;均匀实验设计

波段选择不当造成的过拟合问题。

如果光谱选择的波段比较窄且波段噪声比较大时,建立的模型可能相关系数会很高,原因个人认为是随机噪声恰好与检测物质的浓度有一个线性关系,此时也会造成过拟合。可以做一个简单的实验,选择一组光谱建立模型,选择波段时选择10000cm-1以上的一小段光谱,这时建立的模型可能会非常好,但是该模型无法通过检验。

此外,如reeroo老师所说,如果选择错误的参数也会造成过拟合(如:建模因子个数等)。

对于波段选择或者参数选择造成的过拟合通常可以采用正交验证进行检查,当正交验证的结果(差)与模型结果(好)差异很大的时候就可以属于过拟合了。
该帖子作者被版主 zhonghuashendun5积分, 2经验,加分理由:深入分析过拟合原因!
firesea
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
原文由 athosmi(athosmi) 发表:
原文由 武灵(zhonghuashendun) 发表:
原文由 athosmi(athosmi) 发表:
看过拟合的原因了。
如果是配制的样品中某些成分线性相关了,那必然过拟合。
如果是波段选择不当,一般用正交验证就能查出过拟合了,不过我遇到的大部分这种情况都是波段选择不当,比如选择了信号噪声比较大的部分……
其他还有什么情况我就一时想不起来了……
athosmi老师可以针对这两点细致讲一下吗?如果有参加原创大赛的文章就更好了。


人为配置标准品时,可能会出现的几种情况导致模型建立过程中的过拟合问题(个人总结):

1、标准品中的成分过于简单,比如某种混合标准品只有AB两种物质,那不管如何建立模型结果都是会出现过拟合现象。原因就是,如果标准品只有两种物质组成,那么两种物质绝对呈线性负相关关系,A浓度高必然导致B浓度降低,相对A浓度降低B浓度也会随之升高。这种情况下若采用近红外全光谱建立模型,就会出现过拟合现象。

2、母液稀释,配置一种复杂的母液,然后将母液稀释成不同浓度的标准品,由于母液中所有的物质浓度都呈现相同倍数的降低,也就导致了所有物质浓度呈绝对线性正相关关系,进行近红外检测建模,就会导致过拟合现象。

3、配置时不小心造成某几种物质浓度接近线性,造成线性相关。

4、其他(暂时没想到)。

对于配置溶液物质浓度相关问题的检查方法:

有些软件中会带有浓度相关性检查的功能,只需要将每个样品中各物质浓度输入后,点击一下相关的按钮,然后看看各个物质之间浓度是否有线性相关的关系或者趋势即可。

如果没有相关功能,就把各样品的物质浓度输入到excel表格里,通过画点状图,观察各物质浓度是否有线性相关。

推荐配制方法:

正交实验设计;均匀实验设计

波段选择不当造成的过拟合问题。

如果光谱选择的波段比较窄且波段噪声比较大时,建立的模型可能相关系数会很高,原因个人认为是随机噪声恰好与检测物质的浓度有一个线性关系,此时也会造成过拟合。可以做一个简单的实验,选择一组光谱建立模型,选择波段时选择10000cm-1以上的一小段光谱,这时建立的模型可能会非常好,但是该模型无法通过检验。

此外,如reeroo老师所说,如果选择错误的参数也会造成过拟合(如:建模因子个数等)。

对于波段选择或者参数选择造成的过拟合通常可以采用正交验证进行检查,当正交验证的结果(差)与模型结果(好)差异很大的时候就可以属于过拟合了。


谢谢楼上的细致回答  很受用  呵呵
4531lang
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
除了液体,固体的过拟合是怎么回事呀?跟建模选择的计算方法和影响因子关系大么?
猜你喜欢最新推荐热门推荐更多推荐
品牌合作伙伴