主题：【原创】相关系数能不能说明线性关系的好坏？不要被数字给忽悠了！

浏览0 回复33 电梯直达

xx_dxd_xx

结帖率：

100%

关注：0 |粉丝：0

新手级：新兵

发表于：2019/01/12 15:54:41 楼主管理分享倒序浏览查看全部回复私聊

高端分析仪器是一个巨大的市场，而近年来崛起的国产仪器厂家也都瞄准了这个市场。
在市场竞争中，各个厂家各出奇招。在早些年的低价抢占市场之后，近年来有开始通过参数刷高分，各类参数大有国际领先的趋势。但是参数好真的能说明问题吗？
最近看到版主发的一个帖子，https://bbs.instrument.com.cn/topic/7081574
国内某色谱厂家的新品发布会上，参数已经超过安捷伦、岛津的旗舰产品。
对于数据的真实性我并不怀疑。但是检测行业的人都知道，数据除了真实性以外，还有代表性的问题。某个单一的真实的数据并不一定能全面的反应实际情况，如果过分强调某个数据甚至会引出错误的结果。
.
先说基本结论：
相关系数并不能直接说明线性关系的好坏，有时候会出现相关系数高但线性误差依然很大的现象。
在线性误差一定的前提下，可以通过设计数据点的技巧来获得看起来比较好的相关系数，但并没有实际意义。
.

以这个图上的为例

0.01ppm~100%范围内线性相关系数0.99991，看起来已经好到逆天了，于是得出结论线性范围8个数量级，世界第一。
但是这里只有一个数据，却没有细节。这个相关系数真的能说明问题吗？
.
下面是我设计的一个例子：

假设10000ppm以内都完全符合理想线性，高于10000发生偏离，10w时偏低10%，100w时偏低20%。这种情况按检定规程中偏离5%的限度进行判定，已经是显著偏离线性了。但是作图之后却很难发现问题，相关系数仍然高达0.9998。
.
另一个极端的例子：

偏离更大，达到50%，但相关系数却更高。
.
以上例子虽然较为极端，实际测量中通常不会出现，但是还是能说明一个重要的问题：单凭相关系数是不能够简单判断线性关系好坏的。
.
为什么出现这种问题呢？主要原因有两方面：
.

首先是相关系数的计算和相关性的判定都需要考虑数据点的个数，也就是统计学里面讲的自由度。
在同等自由度的前提下，相关系数高的说明线性关系更好。但是自由度不同的时候就不能简单比较相关系数。
我们看下面这个例子，一组16个点的实验数据，我们分别用全部数据作图，另外再抽选其中4个点作图，

可以看到，数据点少的获得的相关系数反而更高。
我们知道，对于同一组实验，线性关系应是确定的，而且数据越多越能获得接近真实的实验结果。因此绝不能简单的根据后一张图上相关系数更大，就说后一个拟合结果线性更好。
在检验线性关系时，统计学上叫做显著性检验，是有一个临界值表的

很明显自由度越低对相关系数的要求越高，5个点的时候达到0.995的相关系数是满足临界值的，而4个点的时候达到0.995的相关系数却不能满足临界值。不同自由度的情况下不能简单的比较相关系数。不说明自由度，相关系数就是没有意义的。
.
另一个方面涉及到数据点位置的设置。
在相关系数的计算公式中，数值大的数据点会占据更高的权重，拟合结果也会倾向于减小高浓度数据的绝度偏差。而色谱分析中一般在浓度不太低的情况下相对偏差是定值。因此容易出现一个有趣的现象：浓度梯度等比分布的时候相关系数容易做好、等差分布的时候却相关系数不高。
看下面这个例子，最高浓度都是100，假设每个数据点测量的相对偏差都是5%，不考虑溶液配制时的误差。

容易发现，浓度等比分布时获得的相关系数明显高于等差分布。但实际上每个数据点与方程的偏离程度按相对偏差算都是一样的，二者并没有区别。因此这里只看相关系数就容易造成假象。
.
其实有些人已经发现了，仪器厂家做宣传的时候或者进行新仪器验收的时候都喜欢用等比分布的浓度梯度，而且是浓度差别很大的、点的数量又少，这样就可以很容易的做出很高的相关系数，看起来很厉害，其实并不能说没问题。
我亲历过好多台TVOC色谱的验收，有些厂家就是投机取巧，用0.01、0.1、1g/L三个浓度的标液做验收，再加上零点，4个点很容易就是三个9甚至4个9的相关系数，看起来比别的仪器都好。管采购的领导不懂这个，被忽悠得一愣一愣的。

该帖子作者被版主 zyl3367898加 5积分， 2经验，加分理由：原创有奖