主题：【第十六届原创】光谱多元建模中代表性样本选择方法研究综述

浏览0 回复0 电梯直达

Ins_d3f92be3

结帖率：

100%

关注：0 |粉丝：0

新手级：新兵

发表于：2023/10/31 23:02:16 楼主管理分享倒序浏览只看楼主回复私聊

维权声明：本文为Ins_d3f92be3原创作品，本作者与仪器信息网是该作品合法使用者，该作品暂不对外授权转载。其他任何网站、组织、单位或个人等将该作品在本站以外的任何媒体任何形式出现均属侵权违法行为，我们将追究法律责任。

光谱多元建模中代表性样本选择方法研究综述

A tutorial on representative sample selection methods in spectral multivariate modeling

张可欣，张强，刘鹏，卞希慧^*

天津工业大学化学工程与技术学院，天津，300387

摘要：在多元建模中，模型性能很大程度上受到建模所用样本的影响。随着分析仪器的发展，样本光谱信息的获取越来越容易。然而，过多的样本可能导致冗余信息，而且样本目标值的测量通常是费钱且耗时，提高模型性能的代价高昂。因此，需要从大量样本中选择出代表性样本。本综述总结了化学计量学领域提出的19种代表性样本选择方法原理，并首次将代表性样本选择方法分为基于抽样的方法、基于距离的方法、基于聚类的方法、基于变量选择的方法、基于实验设计的方法、基于奇异样本检测的方法和基于预处理的方法等七类。并对每种方法的优缺点以及适用范围进行总结，为选择代表性样本方法提供参考。

关键词：化学计量学；光谱分析；多元校正建模；样本集选择

1. 引言

光谱分析结合化学计量学已成为复杂样本定性定量分析的重要手段。在采用化学计量学进行定性定量分析时，首先需要获得大量的实际样本，并采集样本的光谱数据。为了删除重复样本，需要从最初采集到的大量样本中选择出简化的样本集。再通过传统的方法测得这些代表性样本目标值的含量。有时实验室的可行性研究中，样品是通过一定的实验设计方式按照给定的比例配置而成，这时的目标值通常是已知的且没有重复，不需要从大量样本中选择简化的样本集的步骤。由于奇异样本的存在或破获模型的预测效果。因此在样本测量完毕后，需要剔除数据集中的奇异样本。然后将不包含奇异样本的简化的样本进一步划分为校正集（calibration set）和验证集（validation set），其中校正集用来建立模型，验证集用来验证模型的效果。再对校正集样本光谱进行适当的预处理和变量选择，建立多元校正或化学模式识别模型。将验证集样本通过同样的光谱预处理、变量选择，将选择后的变量代入到模型中得到预测值，过程如图1所示。

图1 光谱分析结合化学计量学结合对复杂样品定性定量分析的过程

在上述化学计量学建模过程中，有两个过程都涉及到代表性样本的选择。第一个过程是从大量样本集中选择出简化的样本子集，第二个过程是从简化的样本集中选择出代表性的样本作为校正集（calibration set），如图2所示。因此，代表性样本的选择是化学计量学的一个重要研究内容。从1969年KS算法被提出后，又有大量的代表性样本选择方法被提出，但是没有对这些方法的系统的综述、分类以及比较。

图2 代表性样本选择过程

本本首次将代表性样本选择方法根据其原理分为七大类，即基于抽样的方法、基于距离的方法、基于聚类的方法、基于实验设计的方法、基于变量选择的方法、基于奇异样本检测的方法和基于预处理的方法，如图3所示。系统综述了每种代表性样本选择方法的原理，并对它们的优缺点进行了比较。

图3 代表性样本选择方法

2. 基于抽样的样本选择方法

随机抽样（RandomSampling，RS）是第一个对样本集进行分割而不需要特殊处理的方法，其基本思想是从样本集中随机抽取一部分样本组成校正集，其余样本作为验证集。该选择方法简单，无需对数据进行排序、筛选或计算，但每次随机挑选校正集样本可能存在很大差异，不能保证所选样本的代表性。

3 基于距离的样本选择方法

3.1 Kennard-Stone算法

Kennard-Stone算法（KS）是Kennard和Stone在1969年提出的一种代表性样本选择方法[1]。该方法以计算样品测量信号间的欧式距离为基础，旨在选择出覆盖范围广，且分布均匀的代表性样本。首先，使用欧式距离计算得到距离最远的两个样本，并将它们放入校正集。之后，分别计算剩余样本与已选样本的距离，从剩余样本中选择样本间最短距离的样本，并从这些距离最短的样本中选择距离最大的样本，将其放入校正集。最后，重复以上步骤，直至校正集样本达到预定的数量。

KS算法的优点是样本在校正集中按空间距离均匀分布，建立的模型具有良好的预测性能。然而，KS方法在高浓度范围内效果最好，在低浓度范围内，光谱的差异难以区分，会导致性质空间分布不均匀。

3.2 Duplex算法

Duplex算法是RonaldD. Snee在1977年提出的一种基于KS的改进方法[2]。与KS方法不同的是，Duplex算法的特点是利用样本光谱的空间分布。通过比较样本光谱之间的欧氏距离来选择样本，校正集和验证集的选择同时进行，以保证校正集和验证集都具有代表性。首先，使用欧氏距离在所有样本中找出最远的两个样本并放入校正集中。然后，在剩余样本中找出与校正集样品距离最远的样本放入验证集中，其次，选择离校正集中最初选的两个最远样本放入到校正集中，选取离验证集中最初选取的最远的样本放入到验证集中。最后，直到验证集满足数目要求，将剩余样本加入校正集。

3.3 Puchwein算法

Puchwein算法是GerdPuchwein在1988年提出的代表性样本选择方法[3]。首先，根据所有样本点至样本集中心点的马氏距离，选择距离最大的点加入到校正集中。其次，设定一个阈值，规定比阈值小的样本均被排除在外。然后，选择剩余样本中，离中心点距离最大的点（而且要比阈值大）加入校正集中，重复此过程。直至没有样本符合条件。该方法校正集样本的数目由阈值的大小来决定，如果阈值太小，则样本数过多，否则，样本数则过少。因此必须设定不同的阈值，重复几次上述实验过程，样本数目才能达到期望值。

3.3 SPXY算法

KS算法仅考虑了光谱的信息，没有考虑参考值的影响。为了解决KS算法的缺点，RobertoKawakami Harrop Galv?o等人在2005年提出的一种基于x-y联合距离（(Sampleset Partitioning based on joint X–Y distances，SPXY）的代表性样本选择方法[4]。该算法是在KS算法的基础上发展起来的，其中光谱空间之间的距离和所测组分浓度的空间距离被用作选择最佳样本集作为校正集的参考。在计算样本u和样本v之间的距离时，采用了同时考虑光谱数据变量x和目标参考值变量y的新的距离定义d_xy(u,v)。

式中d_x(u,v)为以光谱x为特征参数计算的样本u和v之间的欧氏距离；d_y(u,v)为以目标参考值y为特征参数计算样本u和v之间的距离；n为样本的总数目。SPXY依靠欧氏距离提取样本的代表性子集。然而，欧氏距离可能并不适用于光谱学应用中的所有样本分布模型，因为光谱学应用中的样本通常比较复杂，难以用适当的参数函数来近似，欧氏距离度量可能会失去其有效性。

3.4 基于谱相似性算法

基于谱相似性（SampleSelection based on Spectral Similarity，FS）算法是孙悦等人在2021年提出的代表性样本选择方法[5]。首先，计算未知样本X_t(i)与样本池X中第j个的欧氏距离d_x(i,j)，进行子集划分。其次，为验证集选择最相似的样本，去除验证集中的重复样本。最后，计算剩余样本X_r中X_t(i)和第j个样本之间的欧氏/马氏距离。候选样本数和验证集样本数分别计算如下：

N_can、N_v和N_t分别表示候选、验证和独立测试集样本的数量。N_rcan和N_rv分别是候选和验证集样本的重复冗余样本数。

在复杂样本的光谱定性定量分析过程中，一开始提出的代表性样本选择方法是基于距离的方法，之后，人们将其它化学计量学方法用于代表性样本选择，如聚类方法、预处理方法、变量选择方法以及奇异样本检测方法等。

4. 基于聚类的样本选择方法

聚类分析（ClusteringAnalysis）是将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。聚类分析的目标就是在相似的基础上收集数据来分类。在化学计量学领域，很多聚类技术都得到了发展，并将聚类技术应用于代表性样本选择中。例如，Naes、SOM、OptiSim和 K-Means。

4.1 N?s算法

N?s算法是1990年由TomasIsaksson和TormodN?s提出的一种基于聚类分析原理方法[6]。其思想是，聚类一起覆盖整个感兴趣的空间，并且当样本在同一聚类中时，它们包含相似的信息。因此，最好从每个集群中只选择一个样本，而不是从少数集群或有限区域中使用几个样本。N?s算法先把光谱进行聚类分析，设定类的数目与所期望的校正集样本数目一致。然后从每一类内，选择离中心最远的样本点加入至校正集中。

4.2 SOM算法

自组织图（SOM）通常被称为Kohonen网络，由芬兰赫尔辛基大学的T.Kohonen教授等人于1981年提出，是一种不同类型的人工神经网络。SOM1996年被Wu W等人应用的代表性样本选择方法[7。SOM通常被称为Kohonen 网络，是一种不同类型的人工神经网络。SOM用于样本选择的原理与同一神经元中样本的性质类似，只要从每个神经元中选择一些样本作为校正集样本，而将该神经元中的其余样本作为验证集样本即可。所有簇内的校正集样本相加即为整个数据集的校正集。SOM对校正集和验证集进行划分的主要目的是将对象从m维空间映射到二维空间。当对象在原始空间中具有相似属性时，它们会被映射到同一个节点上，并从映射到同一个节点上的对象中随机选择校正集。

4.3最优K相异性方法

最优K相异性方法（Optimizable K-Dissimilarity，OptiSim）选择方法是Robert D. Clark于1997年提出的一种基于最优K差异性的代表性样本选择算法[8]。最优Ｋ相异性算法涉及3个参数：K定义每一次迭代中子样品集的大小；R定义一个有效的候选对象与任何一个已经选定的对象之间所允许的最小相似性；M为所选的代表性子集的总数目。首先，从数据集中随机选择一个数据对象，在剩下的数据集中创建一个候选对象缓冲池、一个回收站和子样本集。其次，从候选缓冲池中随机取出一个数据对象，如果它到任何一个已选定对象的相似性小于R，引入子样本集，否则放入回收站。最后，重复步骤2，直到子样本集包括M个对象或者候选缓冲池耗尽。

OptiSim的优点是能够快速选择既有代表性又有多样性的样本，并能根据需要灵活控制代表性和多样性之间的平衡。改变K值为调整代表性和多样性之间的平衡提供了一种直接而自然的方法。K值越小，样本的代表性越强；K值越大，样本的多样性越强。不过，应用K值创建的代表性样本集与通过分层聚类得到的聚类具有非常相似的属性。

4.4K-means算法

K-means算法是M.Daszykowski等人于2002年提出的一种基于聚类的代表性样本选择方法[9]。它将实验数据集X分成k个簇，其中k由使用者给出。开始时，对象被随机分配到k个簇中。在连续迭代过程中，簇中心X_j以这样的方式重新分布在数据空间中，使得一个簇中的对象彼此之间比其他簇中的对象更相似。对象之间的相似性通过欧式距离来测量。首先，选择要找到的簇数，k。其次，将数据对象随机分配到k-clusters中，计算每个簇的均值X_j。然后，将每个对象重新分配给它最近的X_j，然后根据公式计算E。重复步骤2和3，直到E收敛，即最相似。

5. 基于实验设计的样本选择方法

实验设计是一种数学方法，可以有效地从可用的历史数据或预定的实验中收集信息。各种实验设计已被用于描述因子空间的结构变化，包括混合、多层次全因子、中心复合和最优。当样本数量少于传统模型(即中心复合模型和全因子模型)所要求的数量时，通常使用最优设计优化设计是由计算机生成的，并根据特定的标准，用最少的样本数量，增加确定实验的最佳子集(即训练集)的可能性。实验设计已应用于从给定的因子空间中提取用于化学计量分析的校正集。

5.1 D-Optimal设计

Joan Ferre和F.Xavier Rius在1996年利用D-lOptimal算法进行代表性样本选择[10]。该方法的原理是选取线性回归模型的信息矩阵∣X^tX∣的行列式最大的样本。Fedorov的交换算法用于此目的。从所请求大小的初始设计开始。在每次迭代中，将设计中的每个点与候选列表中的每个点进行比较，并对优化设计的对进行交换。当最优性准则没有进一步改进时，迭代算法终止。根据该准则选择的样本位于校正域的边界。因此，与KS方法相反，D-Optimal设计旨在选择最具影响力的外围样本。另一方面，当变量数量大于样本数量时，由于信息矩阵的奇异性，不能直接应用D-Optimal设计。

6. 基于变量选择的样本选择方法

由于光谱数据含有上千个波长点，并不是所有的波长变量都与目标组分相关。因此需要从采集的波长变量中选择代表性样本信息的重要波长，删除冗余波长。合适的光谱变量选择可以增加模型的解释性，简化模型并提高模型的预测精度。变量选择方法有模拟退火、灰狼算法、遗传算法和连续投影算法等。现如今，遗传算法和连续投影算法可以应用于代表性样本选择中。

6.1 遗传算法

Yukio Tominaga于1998年提出了一种用于代表性样本选择的遗传算法（Genetic Algorithms，GA）[11]。该算法最初运用于变量选择，是一种随机全局搜索优化方法。GA旨在优化两个目标：最大化特征子集的分类准确性和最小化所选特征的数量。为了获得具有代表性的子集，使用两个拟合度函数,如公式(5)所示，第一个拟合度函数表示所选子集内样本的不相似度，使用欧氏距离作为不相似度的度量。

N是子集中样本的个数，P是描述符的个数。第二个适应度函数是积矩相关系数PMCC值的平均值，用描述符MP的PMCC的平均值作为拟合函数。

GA选择良好目标函数的方法优于传统方法。但其收敛速度较慢，容易陷入局部最优；算法的随机性比较大，多次运行的结果不均匀；容易陷入过早成熟或整个种群进化停滞。

6.2 连续投影算法

连续投影算法（SuccessiveProjections Algorithm，SPA）是HeronidesAdonias Dantas Filho在2004年提出的一种代表性样本选择方法[12]。该算法最初是为变量选择而开发的一种技术，在选择时会同时考虑光谱数据变量x和目标参考值变量y，从而根据分析中涉及的化学物种的光谱剖面量身定制样本选择。

SPA是一种迭代正演选择方法，在仪器响应矩阵X_cal上运行，其行和列分别对应于校准样本和光谱变量。SPA从一列x₀开始，确定其余各列中哪一列在与x₀正交的子空间S₀上的投影最大。这一列（用x₁表示）可视为包含x₀中未包含的最大信息量的一列。在下一次迭代中，SPA将分析局限于子空间S₀，将x₁作为新的参考列，并继续上述步骤。SPA选择的样本子集冗余度小，而且考虑了X-Y相关性，因此所选样本在建模过程中具有代表性。对于减少多元校正中的实验和计算工作量，以及不同仪器之间的校正转移都很有价值。

6.3最优预测校正子集

Jan P.M. Andries和YvanVander Heyden在2023年提出通过选择具有最优预测能力的最佳拟合样本来减少校正集（OptimallyPredictive Calibration Subset，OPCS）的方法[13]。OPCS是一种基于变量选择的代表性样本选择方法，该方法通过FCAM-SIG变量选择后的原始大型全局校正集获得的全局PLS模型，然后根据残差从大到小对全局校正样本进行排序，并选择不同扩大比例的已排序校正集。对于每一个比例，通过交叉模型验证（CMV）确定其最优预测能力和相应的PLS复杂度。在对所有部分进行CMV验证后，选择含有最佳拟合样本和最优预测能力的部分，即OPCS。

OPCS方法的优点是子集中不包含异常值，所选择的最佳拟合样本不需要代表全局校正集，而只需支持基于OPCS的模型，因此，OPCS模型中的样本数量通常比传统的代表性样本选择方法所选的样本数量少。7.基于奇异样本检测的样本选择方法

奇异样本（outlier）有时也称为异常值、不规则点、离群点或界外点，至今没有严格的定义，一般是指那些落在总体之外的样本向量。造成奇异样本的原因很多，可能是由于总体条件的突然变化或者某个未知因素的出现；可能是由于数据本身存在的量测误差；也可能是由于性质截然不同于总体的样本存在。奇异样本的存在会在一定程度上影响甚至改变整体数据的分布趋势，从而影响校正模型的准确性。奇异样本的识别方法有残差法、最小体积椭球估计法、隔离林奇异值检测法等，其中简单区间计算方法、隔离林奇异值检测方法和组合分析信号方法可以用来选择代表性样本。

7.1简单区间计算法

Oxana Ye. Rodionova 和AlexeyL. Pomerantsev在2008年提出一种简单区间计算（SimpleInterval Calculation，SIC）方法[14]，即区间框架内的方法。该方法直接以区间形式返回预测结果。它是一种考虑到数据分析中误差有限性的统计方法。SIC方法假设数据中的误差是有限的，这意味着误差超过某一常数（称为最大误差偏差）的概率为零。根据这一假设，就可以构建能够捕捉数据不确定性的预测区间。SIC方法包括解决优化问题，以确定与数据一致的未知参数的最小值和最大值。这些最小值和最大值定义了预测区间。

SIC方法不依赖于误差分布的形式。只要误差是有限的，它就能处理不同类型的误差分布。SIC方法还能根据样本的状态对其进行分类，如内部样本（与模型一致的样本）、奇异样本（严重偏离模型的样本）和绝对外部样本（与模型完全不同的样本）。

7.2 隔离林奇异值检测和子集选择

隔离林奇异值检测和子集选择(Isolationforest Outlier detection and Subset selection，IOS)算法是张志敏等人在2016年提出的代表性样本选择方法[15]。隔离森林(IsolationForest, IForest)最初是由周志华等人提出的一种新的奇异点检测算法。张志敏等人将其改进成IOS算法，可以在隔离森林的基础上同时检测奇异值和选择有代表性的子集。首先，构建一个包含所有样本的IForest，并设置树的数量为1000，然后将所有样本放入IForest中，重复此过程数次，取所得分数的平均值。然后，根据样本的奇异得分对样本进行排序，从代表性样本中排除奇异样本。最后，选择所有奇异得分大于0.5的样本作为奇异样本，从剩余样本中均匀选择所需数量的样本作为代表性的正态普通样本。

IOS可以剔除奇异值，选择没有y值的代表性样本。只测量其y值，可以缩短时间，节省资源。此外，它还可以用于检测预测样本中的奇异值，减少模型的冗余度和易于更新模型。

7.3 组合分析信号算法

A.L. Pomerantsev和O.Ye. Rodionova在2023年提出一种用组合分析信号(Combined Analytical Signal，CAS）选择代表性样本的方法[16]。CAS是一个已知分布的变量，可以作为多变量数据的分析信号，可以进一步扩展到多块数据。代表性样本的选择包含两个问题，第一个问题是简化集（Reduced Set Selection，RSS）的选择。首先，从顶部选择几个样本作为校正集。然后，建立模型进行预测，并获得质量特征(通常是RMSEP)。如果质量不令人满意，在校正集中增加额外的样本，重复直到收敛。第二个问题是测试集（Test Set Selection，TSS）的选择。首先，将所有样本分成两个子集:前10%构成“极端”子集，其余构成“常规”子集。再使用随机或其他选择方法，将“常规”样本的所需分数放入测试集，将相同比例的“极端”样本添加到测试集中，从底部选择它们。然后，使用由未包含在测试集中的样本组成的校正集开发模型，预测测试集并检查可能在那里找到的奇异值，将测试集的奇异值替换为来自校正集的“常规”样本。最后，通过增加模型的复杂性，重复上一步骤，以确保测试集不包含奇异。该方法的主要优点是不需要大量的计算和时间成本。

8. 基于预处理的样本选择方法

实验采集到的原始光谱除了包含与样本相关的有用信息外，往往也掺杂着干扰信息，包括随机噪音、背景干扰、杂散光以及测样器件引起的光谱差异，这对校正模型的质量和未知样本预测的准确度将产生严重的影响。因此，在建立多元校正模型前，对光谱进行预处理以消除各种干扰变得十分关键和必要。光谱预处理方法包括背景扣除方法、散射校正方法、噪声去除方法等，其中净分析物信号方法和半监督方法可以用于代表性样本选择。

8.1 净分析物信号方法

根据候选样本与现有样本的净分析物信号(Net Analyte Signal，NAS)向量欧几里得范数的差异进行选择的方法是2018年由贺忠海等人提出的[17]。NAS方法能够将光谱信息转换为与浓度相关的度量。首先，使用一组样本的浓度和光谱来计算投影矩阵、NAS向量和标量值。然后，通过投影矩阵与样本谱的乘积计算候选样本的NAS向量。通过范数计算得到NAS的标量值。计算候选集与选择的样本集之间的距离，依次将距离最大的样本加入选择的样本集。最后，测量分析物的浓度，使样品可以用作校正样品。

采用NAS计算的样本选择方法有效地增加了不需要测量y值的样本的代表性。以测量较少原始样本的浓度值为代价，可以获得标量NAS值的分布。随后的候选样本通过其NAS标量规范值进行评估。从现有样本中选择具有最大NAS距离值的样本进入校正集，以确保其代表性。

8.2 半监督选择方法

贺忠海等人在2018年提出了一种半监督选择（Semi-SupervisedSelection，SS）的方法[18]，SS方法用于确定是否应将样本添加到校正集中。首先，使用KS方法选择部分样本集，并测量其浓度。其次，根据净分析物信号的标量值分布选择另一部分样本集。如果某个样品的净分析物信号与现有净分析物信号值相比具有明显差异，则将该样品添加到校正集中。然后测量样品中的相关分析物，以便将样品用作校正样品。

SS方法比RS和KS选择更有效，只需测量具有代表性的样本的浓度，在参考测量上节省了大量的时间和金钱。当采集到一些有代表性的样本时，可以更新校正模型。样本选择对在线光谱测量有很大的好处，可以方便地获得许多样本的光谱。

到目前为止，提出了19种代表性样本选择方法,其中基于距离的方法是应用最广泛的，KS算法是使用次数最多的如表1所示。

表1 代表性样本选择方法总结

Algorithm name	Abbreviation	Categories	Year	First Author	Citations	Proposed literature
Random Sampling	RS	Sampling-based
Kennard-Stone	KS	Distance-based	1969	R.W. Kennard, L.A. Stone	3504	[1]
Duplex		Distance-based	1977	R.D. Snee	1432	[2]
Puchwein		Distance-based	1988	G. Puchwein	67	[3]
Sample set Partitioning based on joint x-y distance	SPXY	Distance-based	2005	R.K. H. Galv?o	820	[4]
FS		Distance-based	2021	Y. Sun	14	[5]
N?s		Clustering-based	1990	T. Isaksson, T. N?s	79	[6]
Kohonen mapping	SOM	Clustering-based	1996	W. Wu	264	[7]
Optimizable K-Dissimilarity Selection	OptiSim	Clustering-based	1997	R.D. Clark	200	[8]
K-means		Clustering-based	2022	M. Daszykowski	325	[9]
D-optimal designs		Experimental design-based	1996	J. Ferre, F.X. Rius	59	[10]
Genetic algorithm	GA	Variable selection-based	1998	Y. Tominaga	33	[14]
Successive Projections Algorithm	SPA	Variable selection-based	2004	H.A.D. Filho	64	[12]
Optimally predictive calibration subset	OPCS	Variable selection-based	2023	J.P.M. Andries	0	[13]
Isolation forest Outlier detection and Subset selection	IOS	Outlier detection-based	2016	W.R. Chen	25	[14]
Simple Interval Calculation	SIC	Outlier detection-based	2008	O.Y. Rodionova	36	[15]
Combined Analytical Signal	CAS	Outlier detection-based	2023	A.L. Pomerantsev	1	[16]
Net analyte signal	NAS	Preprocessing-based	2018	Z.H. He	4	[17]
Semi-supervised selection	SS	Preprocessing-based	2018	Z.H. He	11	[18]

9. 结论

本文首次综述了19种的代表性样本选择算法的原理，这些方法都有各自的优点和缺点。在化学计量学领域，提出了很多种基于抽样、基于距离、基于聚类、基于实验设计、基于变量选择、基于奇异样本检测、基于预处理的方法用于代表性样本选择。现如今，代表性样本选择方法应用的越来越广泛，在未来人们可以探索更多的化学计量学方法应用于代表性样本选择。

参考文献

[1] R.W.Kennard and L.A. Stone, Computer Aided Design of Experiments, Technometrics,1969, 11(1): 137-148.

[2] R.D.Snee. Validation of regression models: methods and examples. Technometrics,1977, 19(4): 415-428.

[3] G.Puchwein. Selection of calibration samples for near-infrared spectrometry byfactor analysis of spectra. Analytical Chemistry, 1988, 60(6): 569-573.

[4] R.K.H.Galv?o, M.C.U. Araujo, G.E. José, M.J.C. Pontesl, E.C. Silva, T.C.B. Saldanha.A method for calibration and validation subset partitioning. Talanta, 2005,67(4): 736-740.

[5] Y.Sun, M. Yuan, X.Y. Liu, M. Su, L.L. Wang, Y.Z. Zeng, H.C. Zang, L. Nie. Asample selection method specific to unknown test samples for calibration andvalidation sets based on spectra similarity. Spectrochimica Acta Part A:Molecular and Biomolecular Spectroscopy, 2021, 258, 119870.

[6] T.Isaksson and T. N?s. Selection of samples for calibration in near-infraredspectroscopy. Part II: Selection based on spectral measurements. AppliedSpectroscopy, 1990, 44(7): 1152-1158.

[7] W.Wu, B. Walcmk, D.L. Massart, S. Heuerding, F. Erni, I.R. Last, K.A. Prebble. Artificialneural networks in classification of NIR spectral data: design of the trainingset. Chemometrics and Intelligent Laboratory Systems, 1996, 33(1): 35-46

[8] R.D.Clark. OptiSim: an extended dissimilarity selection method for finding diverserepresentative subsets. Journal of Chemical Information and Computer Sciences,1997, 37(6): 1181-1188.

[9] M.Daszykowski, B. Walczak, D.L. Massart. Representative subset selection.Analytica Chimica Acta, 2002, 468(1): 91-103.

[10]J. Ferre, F. X. Rius. Selection of the best calibration sample subset formultivariate regression. Analytical Chemistry, 1996, 68(9): 1565-1571.

[11]Y. Tominaga. Representative subset selection using genetic algorithms.Chemometrics and Intelligent Laboratory Systems, 1998, 43(1-2): 157-163.

[12]H. A.Dantas, R.K.H.Galvao, M.C.U. Araújo, E.C. da Silva, T.C.B. Saldanha,G.E. José, C. Pasquini, I.M.Raimundo, J.J. R. Rohwedder. A strategy forselecting calibration samples for multivariate modelling. Chemometrics andIntelligent Laboratory Systems, 2004, 72(1): 83-91.

[13]J.P.M. Andries, Y.V. Heyden. Calibration set reduction by the selection of asubset containing the best fitting samples showing optimally predictiveability. Talanta, 2024, 124943.

[14]W. R. Chen, Y. H. Yun, M. Wen, H. M. Lu, Z.M. Zhang, Y. Z. Liang.Representative subset selection and outlier detection via isolation forest.Analytical Methods, 2016, 8(39): 7225-7231.

[15]O.Y. Rodionova, A.L. Pomerantsev. Subset selection strategy[J]. Journal ofChemometrics: A Journal of the Chemometrics Society, 2008, 22(11-12): 674-685.

[16]A.L. Pomerantsev, O.Y. Rodionova. Subset selection using Combined AnalyticalSignal. Microchemical Journal, 2023, 190, 108654.

[17]Z.H. He, Z.H. Ma, J.M.Luan, X. Cai. An active learning representative subset selection method usingnet analyte signal. Spectrochimica Acta Part A: Molecular and BiomolecularSpectroscopy, 2018, 196, 311-316.

[18]Z.H. He, Z.H. Ma, M.C. Li, Y. Zhou. Selection of a calibration sample subset bya semi-supervised method. Journal of Near Infrared Spectroscopy, 2018, 26(2):87-94.

通讯作者简介：

卞希慧，女，1983年生，教授，主要进行化学计量学算法研究及其在中药、食品、环境等方面的应用研究。

E-mail：bianxihui@163.com

第一作者简介

张可欣，女，1999年生，硕士研究生，研究方向为化学计量学算法研究

E-mail：zkx798928852@163.com

附件：

光谱多元建模中代表性样本选择方法 .docx

该帖子作者被版主 生活所迫加 20积分， 2经验，加分理由：鼓励原创