可疑数据或者称之为离群值(outlier),是一个观测列(分析测试数据)中明显偏离其余数据的观测值。在日常分析测试工作中,对于异常值的取舍通常采用数理统计三大原理之一的假设检验原理。
假设检验的原理: 假设检验是基于小概率事件原理。 假设H0
为原假设, H1
是和原假设对立的备选假设。构造一个小概率事件,当原假设成立时,这个事件以很小的概率发生。在一次实验中,若小概率时间发生那么就不接受原假设,接受对立假设;如果没有发生,原假设成立,否定对立假设*举例1 "棒打狍子,瓢舀鱼”蕴含的假设检验的原理 原假设:河里的鱼很少; 备选假设:河里的鱼很多; 小概率事件:用瓢能舀到鱼 在实际情况中,在北大荒确实发生了用瓢能舀到鱼,因此推翻原假设,接受备选假设:河里的鱼很多,北大荒很富庶,资源丰富。 *举例2 假设检验原理用于生产过程工艺控制。 某饮料灌装车间,当工况正常时,每批次产品灌装平均体积350mL
,标准差10mL
;某日在生产过程中抽取9
个产品,体积的平均值为348mL
,那么生产是否正常(灌装的体积符合正态分布)。 原假设:工况正常; 备选假设:工况不正常; 小概率事件: 经计算小概率事件没有发生,那么生产工况正常。 在对可疑值进行取舍时,先构造一统计量,然后设定小概率事件的临界值,然后比较统计量和临界值,依据比较结果来判断是否取舍。
正态分布数据可疑值取舍通常用Grubbs法: