主题：【分享】样本分组方法

浏览0 回复0 电梯直达

Insm_68f50e17

结帖率：

100%

关注：0 |粉丝：0

新手级：新兵

发表于：2024/06/28 10:01:34 楼主管理分享倒序浏览只看楼主回复私聊

相较于传统分析化学方法，结合化学计量学的近红外光谱分析更容易出现过拟合现象。因此对化学计量模型的验证尤为重要。在建模之前通常需要将采集的样本光谱和参考值分为校正集（calibrationset）和验证集（validationset）。前者主要用于建立多元校正或化学模式识别模型，后者用来验证所建立模型的预测性能。通常校正集和验证集中样本个数的划分比例介于0.5~0.8之间（两者的样本数量具体根据样本、模型的复杂程度来定）。常见的样本分组方法包括：随机算法、Kennard-Stone （KS）算法、光谱-理化值共生距离算法（Sample set partitioning based on joint x-y distances, SPXY）等。

一、随机分组方法

随机分组方法是从数据集中随机选择一部分样本作为校正集，其余样本作为预测集。其中，随机分组算法的选择过程具有不确定性，在样品量较少或者建模效果波动较大时难以建立高效的模型。随机分组不能保证每次选择的校正集样本都具有代表性，因而在验证新提出方法的性能时，为了保证模型性能不受分组方法的干扰，常采用多次随机分组方法进行综合评价。即将数据多次采用随机分组的方法进行分组，对校正集多次建模，计算模型预测结果的平均值。该预测结果不受数据分组的影响，能较好体现模型的性能。

二、KS分组方法

KS算法由Kennard和Stone提出^[²^]，是一种基于光谱距离迭代选择样本的方法，旨在选择出覆盖范围广，且均匀分布的样本集。首先，选择一个初始样本，之后每一步都选择与已选样本光谱距离（通常为欧氏距离或者马氏距离）最远的一个样本，直到选择出的样本达到预设的数量为止。

三、SPXY分组方法

KS算法仅考虑了光谱的信息，没有考虑参考值的影响。当待测组分含量较低时，若光谱特征不显著，采用KS方法可能不会得到满意的校正集样本。Galvao等^[3]在KS方法的基础上提出了光谱-理化值共生距离算法（SPXY）。该方法兼顾参考值和光谱距离，从而保证选择的样本的光谱和参考值都覆盖较大的范围并且均匀分布。SPXY方法的逐步选择过程与KS方法相同，只是在计算样本i和样品j之间的距离时，采用了同时考虑光谱x和目标参考值y的新的距离定义d_xy(i,j)。

d_xy(i,j)＝，i，j∈[1,...,z] (5-1)

式中，d_x(i,j)是以光谱x为特征参数计算的样本i和j之间的欧式距离，d_y(i,j)是以目标参考值y为特征参数计算的样本i和j之间的距离，z是样品的总数目。为了对x和y空间中的样本分布赋予同等重要性，距离d_x(i,j)和d_y(i,j)除以它们在数据集中的最大值进行标准化处理。

四、最优K相异性方法

在选择校正样本时，需要同时考虑样本的代表性和多样化，所谓的代表性是所选样本要尽可能反映整个数据集中所有样本的属性，而多样化是指所选样本之间的差异应尽可能大，彼此容易区分。最优K相异性方法（Optimizable K-dissimilarity selection，OptiSim）是一种能选择既有代表性又兼顾多样化样本的方法^[4]。最优K相异性算法涉及三个参数：K定义为每一次迭代中子样本集的大小；R定义为一个有效的候选样本与任何一个已经选定的样本之间所允许的最小相似性；M为所选的代表性子集样本的总数目。通过K值可控制所选样本代表性和多样性之间的平衡，低的K值能选出更具代表性的样本，较大K值能选出更多样化的样本。

恭喜您！提交成功

主题：【分享】样本分组方法