主题:【讨论】如何计算PCA的得分?

浏览0 回复29 电梯直达
chauchylan
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
如何计算PCA的得分?能否简单说一下,如何使用PCA?
为您推荐
您可能想找: 气相色谱仪(GC) 询底价
专属顾问快速对接
立即提交
可能感兴趣
happyalife
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
百度了一下,PCA有好多种,楼主可以自己去百度看一下
http://baike.baidu.com/view/852194.htm

主成分分析 ( Principal Component Analysis , PCA )是一种掌握事物主要矛盾的统计分析方法,它可以从多元事物中解析出主要影响因素,揭示事物的本质,简化复杂的问题。计算主成分的目的是将高维数据投影到较低维空间。给定 n 个变量的 m 个观察值,形成一个 n ′ m 的数据矩阵, n 通常比较大。对于一个由多个变量描述的复杂事物,人们难以认识,那么是否可以抓住事物主要方面进行重点分析呢?如果事物的主要方面刚好体现在几个主要变量上,我们只需要将这几个变量分离出来,进行详细分析。但是,在一般情况下,并不能直接找出这样的关键变量。这时我们可以用原有变量的线性组合来表示事物的主要方面, PCA 就是这样一种分析方法。   PCA 主要 用于数据降维,对于一系列例子的特征组成的多维向量,多维向量里的某些元素本身没有区分性,比如某个元素在所有的例子中都为1,或者与1差距不大,那么这个元素本身就没有区分性,用它做特征来区分,贡献会非常小。所以我们的目的是找那些变化大的元素,即方差大的那些维,而去除掉那些变化不大的维,从而使特征留下的都是“精品”,而且计算量也变小了。 对于一个k维的特征来说,相当于它的每一维特征与其他维都是正交的(相当于在多维坐标系中,坐标轴都是垂直的),那么我们可以变化这些维的坐标系,从而使这个特征在某些维上方差大,而在某些维上方差很小。例如,一个45度倾斜的椭圆,在第一坐标系,如果按照x,y坐标来投影,这些点的x和y的属性很难用于区分他们,因为他们在x,y轴上坐标变化的方差都差不多,我们无法根据这个点的某个x属性来判断这个点是哪个,而如果将坐标轴旋转,以椭圆长轴为x轴,则椭圆在长轴上的分布比较长,方差大,而在短轴上的分布短,方差小,所以可以考虑只保留这些点的长轴属性,来区分椭圆上的点,这样,区分性比x,y轴的方法要好!   所以我们的做法就是求得一个k维特征的投影矩阵,这个投影矩阵可以将特征从高维降到低维。投影矩阵也可以叫做变换矩阵。新的低维特征必须每个维都正交,特征向量都是正交的。通过求样本矩阵的协方差矩阵,然后求出协方差矩阵的特征向量,这些特征向量就可以构成这个投影矩阵了。特征向量的选择取决于协方差矩阵的特征值的大小。
dahua1981
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
happyalife
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
主要是一种算法,研发的人需要,应用者知道有这么回事就可以了
savedown
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
得分可以这样去理解。

测量信号Y可以被PCA分解成直角坐标(这种分解可以是超越3维的,这样在直观上可能就有些障碍了。)

那么那些成为坐标的向量就被称为负荷向量,而在坐标上的强度就是得分了。

例如描述空间中的一点,首先是定义坐标系,继而定义在坐标系内每个轴上的长度。PCA也是如此,不同的是,坐标可以无穷多个,而PCA的坐标和数据的聚集度有关,一群数据的最大方向是第一主元,也就是第一根坐标轴,第二根和第一根垂直,在无穷根垂直向量中,数据第二强度是唯一的,那就是第二根,以此类推,直到描述完所有维度。
yu3226033
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
JackyLiu
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
原文由 happyalife(happyalife) 发表:
主要是一种算法,研发的人需要,应用者知道有这么回事就可以了


那这种算法如何应用到光谱图的分析中呢?
yuduoling
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
原文由 happyalife(happyalife) 发表:
主要是一种算法,研发的人需要,应用者知道有这么回事就可以了


研发的人可以仔细研究一下,象我等只使用仪器,不研发仪器的用户,只要知道个大概,会用就行了
dahua1981
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
原文由 yuduoling(yuduoling) 发表:
原文由 happyalife(happyalife) 发表:
主要是一种算法,研发的人需要,应用者知道有这么回事就可以了


研发的人可以仔细研究一下,象我等只使用仪器,不研发仪器的用户,只要知道个大概,会用就行了

多少了解点还是有好处的
yuduoling
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
原文由 dahua1981(dahua1981) 发表:
原文由 yuduoling(yuduoling) 发表:
原文由 happyalife(happyalife) 发表:
主要是一种算法,研发的人需要,应用者知道有这么回事就可以了


研发的人可以仔细研究一下,象我等只使用仪器,不研发仪器的用户,只要知道个大概,会用就行了

多少了解点还是有好处的


那是的,既知其然,也知其所以然,用起来就更得心应手了
dahua1981
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
原文由 yuduoling(yuduoling) 发表:
原文由 dahua1981(dahua1981) 发表:
原文由 yuduoling(yuduoling) 发表:
原文由 happyalife(happyalife) 发表:
主要是一种算法,研发的人需要,应用者知道有这么回事就可以了


研发的人可以仔细研究一下,象我等只使用仪器,不研发仪器的用户,只要知道个大概,会用就行了

多少了解点还是有好处的


那是的,既知其然,也知其所以然,用起来就更得心应手了

是啊
猜你喜欢最新推荐热门推荐更多推荐
品牌合作伙伴