主题:【分享】化学模式识别方法

浏览0 回复0 电梯直达
Ins_29253308
结帖率:
100%
关注:0 |粉丝:0
新手级: 新兵
化学模式识别(CPR)是利用统计学、信号处理、数学等工具从化学量测数据中找出样本的特征,进而对样本进行识别和归类的一门技术。

,294化学模式识别按照样品集有没有“教师信号”可以划分为无监督的模式识别和有监督的模式识别(。前者只有样本的光谱数据但样本的类别(属性、特征)未知,通过样本本身的光谱信息实现分类,包括主成分分析(PCA)、系统聚类分析(HCA)等。后者是用一组已知类别的样本作为训练集建立分类模型,或称类模型,然后,再利用模型对待测样本的类别进行预测,包括偏最小二乘-判别分析(PLS-DA)、支持向量机(SVM)、人工神经网络(ANN)等。

一、主成分分析

主成分分析(PCA[1]是一种多元统计分析方法,它是使用最广泛的数据降维以及无监督的聚类方法。PCA的主要原理是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。PCA就是从原始的空间中顺序地找一组相互正交的坐标轴,其中,第一个新坐标轴选择是原始数据中方差最大的方向,第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大的,第三个轴是与第1,2个轴正交的平面中方差最大的。依次类推,可以得到n个这样的坐标轴。通过这种方式获得的新的坐标轴,大部分方差都包含在前面k个坐标轴中,后面的坐标轴所含的方差几乎为0。于是,只保留前面k个含有绝大部分方差的坐标轴,而忽略余下的坐标轴,就可以实现对数据特征的降维处理。在降维后的二维或者三维主成分图中,可以将样本的分类进行可视化,如图5-8所示。

二、系统聚类分析

,275作为一种无监督模式识别方法,系统聚类分析(Hierarchical cluster analysis,HCA[55]是聚类分析中应用最为广泛的方法。该方法的基本思想是首先将参加聚类的样本各自看成一类,然后定义样本之间以及类与类之间的相似度(距离),最后在自成类的样本中选择距离最近的样本合并为一个新类,重新计算新类和其他类之间的距离,并按最小距离并类,如此重复,每次减少一类,直至所有的样本并为一类为止。最终输出一个具有层次结构的聚类结果,如图5-9所示。在HCA中,类内距离和类间距离都有多种方法可供选择。常见的类间距离有马氏距离(Mahalanobis)、欧氏距离(Euclidean)、标准化欧氏距离(seuclidean)、城市街区距离(cityblock)、明氏距离(Minkowski)、切比雪夫距离(Chebychev)和夹角余弦相似系数(cosine)等多种形式。类内距离有最长距离法(complete)、最短距离法(single)、类平均法(average)、重心法(centroid)、加权平均距离法(weighted)、中间距离法(median)和Ward离差平方和等多种形式。
为您推荐
您可能想找: 气相色谱仪(GC) 询底价
专属顾问快速对接
立即提交
可能感兴趣
品牌合作伙伴