红外光谱数据集划分比例及预处理方法研究
血红蛋白浓度是人体的一项重要生理指标,其异常将导致多种疾病.近红外光谱分析技术可以快速、无试剂检测人体中血红蛋白的含量.但是,红外光谱重叠严重、有效信息弱、易受外界噪声干扰,因此通常需要对光谱数据进行数据集划分和预处理,建立定量模型,以去除干扰信息对预测模型的不良影响.如何选择最佳划分方法、最佳划分比例和最佳预处理方法仍是一个问题.针对此问题,本研究以190份不同浓度血红蛋白血液样本和150份不同浓度血红蛋白仿体溶液样本的近红外光谱数据为研究对象,研究等间隔划分法、K_S法(Kennard Stone)、SPXY法(Sample set partitioning based on joint...
Gespeichert in:
Veröffentlicht in: | 分析化学 2022, Vol.50 (9), p.1415-中插19 |
---|---|
Hauptverfasser: | , , , , , , , |
Format: | Artikel |
Sprache: | chi |
Online-Zugang: | Volltext |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Zusammenfassung: | 血红蛋白浓度是人体的一项重要生理指标,其异常将导致多种疾病.近红外光谱分析技术可以快速、无试剂检测人体中血红蛋白的含量.但是,红外光谱重叠严重、有效信息弱、易受外界噪声干扰,因此通常需要对光谱数据进行数据集划分和预处理,建立定量模型,以去除干扰信息对预测模型的不良影响.如何选择最佳划分方法、最佳划分比例和最佳预处理方法仍是一个问题.针对此问题,本研究以190份不同浓度血红蛋白血液样本和150份不同浓度血红蛋白仿体溶液样本的近红外光谱数据为研究对象,研究等间隔划分法、K_S法(Kennard Stone)、SPXY法(Sample set partitioning based on joint x-y distances method)以及双向算法(Duplex)在41种不同划分比例下偏最小二乘(Partial least squares,PLS)模型的预测能力;将小波变换(Wavelet transform,WT)、标准正态变量变换(Standard normal variate,SNV)、直接正交信号校正(Direct orthogonal signal correction,DOSC)、S_G(Savitzky Golay)一阶求导这4种单独预处理方法(考虑顺序)组成65种预处理方法组合,研究这65种预处理组合对PLS定量分析模型预测精度的影响.实验结果表明:两种数据集的PLS模型最优数据集划分方法均为SPXY法,血液样本最佳划分比例为0.48,仿体溶液最佳划分比例为0.90.65种预处理方法中,血液样本的最佳预处理组合为S_G1+WT,此时预测集相关系数(Correlation coefficient of prediction set,Rp)为0.9808,预测集均方根误差(Root mean square error of prediction set,RMSEP)为0.2701;仿体溶液样本的最佳预处理组合为SNV+WT,此时Rp为0.9952,RMSEP为3.8154.预处理组合时,两种算法叠加的效果最好.本研究结果为此类光谱数据的处理提供了一种新的思路和方法. |
---|---|
ISSN: | 0253-3820 |
DOI: | 10.19756/j.issn.0253-3820.221001 |