|
近红外光谱法结合最小二乘支持向量机测定烟叶中钙 、镁元素 近红外光是波长在 780 ~ 2 526 nm 范围的电磁波 。有机物分子在这一范围内的吸收光谱携带有含氢基团 (C — H ,N — H ,O — H 等)伸缩振动的倍频与合频信息 。近红外光谱(NIR)结合化学计量学的分析技术具有快速 、无损 、多组分同时分析的优势。定量分析常用的化学计量学多元校正方法有多元线性回归 、主成分回归 、偏最小二乘回归 (PLSR)等 。在解决比尔定律描述的吸光度与化学组分含量呈线性关系的回归问题时 ,PLSR 具有十分优秀的分析能力 。但受光的散射效应 、待测物分子间缔合作用的影响 ,化学组分含量与近红外光谱还呈现出复杂的非线性对应关系 。这限制了PLSR 等线性回归方法的准确性 ,有必要尝试非线性回归方法解决准确定量的问题 。支持向量机(SVM )基于统计学习理论 ,通过核函数将非线性求解转化为在高维空间中线性求解 ,能够解决线性和非线性多元回归问题 。相比于神经网络等非线性方法 ,SVM 具有收敛快 、解稳定 、推广性强的优点 。最小二乘支持向量机(LS-SVM )是 SVM 的扩展算法 ,使用误差的二范数作为损失函数 ,将二次规划问题转为线性规划 ,大幅简化运算 。 本工作研究目的是探究 NIR 技术结合 LS-SVM 方法建立非线性多元回归模型以准确测定烟草中钙 、镁元素的可行性 。 1 实验部分 1.1 试剂与仪器 近红外光谱检测受到环境温度 、仪器状态的影响 ,难免存在光谱异常的样本 。这些样本引入模型会降低模型的预测性能 。光谱异常样本的检测采用主成分分析(PCA )和马氏距离(MD)相结合的 PCA-MD 方法 。马氏空间中样本杠杆值大于平均杠杆值的 3 倍即为异常样本 ,图 2 中阈值表示为直 随后 ,487 个样本采用 Kennard-Stone(K-S)方法划分为 200 个校正样本和 287 个外部预测样本 。为选择最佳的光谱预处理方法 ,按照蒙特卡洛交互验证(Monte Carlo cross-validation ,MCCV )以 9 ∶ 1 的比例将200 个校正样本随机划分为 MC 校正集和 MC 验证集 ,训练 其中 nv为 MC 验证集样本数 , N 为建模次数 , yi 和 ^ y i 分别为第 i 次建模 MC 验证集样本的参考值和预测值 。在建立多元回归模型的过程中 ,十折交叉验证结合网格寻优求解最佳的模型参数 。图 3 描述了该建模策略 ,应用三种划分验证集的方法分别实现 :评价最终模型 、优化光谱预处理方法和优化 LS-SVM 参数 。其中 ,K-S 具有选择代表性样品的优势 ;MCCV 避免了模型过度拟合验证集样本的风险 ,能够给出准确 、稳定的验证结果 ,适于预处理方法比较 ;由于每次改变校正集都需要重新计算 LS-SVM 参数 ,为平衡计算复杂度和结果可靠性 ,模型参数优化选用十折交叉验证。 2.2 光谱预处理 应对固体粉末样本对光的散射效应 ,多元散射校正(MSC)和标准正态变量变换 (SNV )是两种有效的散射校正方法 ,常用的光谱预处理方法还有平滑 、求导 、去趋势算法和标准化 。对光谱恰当的预处理有助于提高模型性能 ,使用MCCV 在多种预处理方法及其组合中选择最佳的预处理方法 ,即 RMSEMCCV最小值对应的方法 。为尽量避免信号失真使用的平滑算法采用 Savitzky-Golay 卷积法(S-G) 。 表 2 是多种预处理方法的交叉验证结果 。波长选择对钙 、镁模型作用明显 ,SNV 和 MSC 均能够提高模型预测能力 ,二阶导数预处理使模型变差 ,标准化和去趋势算法对模型影响不大 ,钙 、镁回归模型最佳预处理方法均为 SNV 。可见 ,散射校正对于粉末样品的近红外光谱是必要的 。另外由于实验所用光谱仪器的分辨率高 、重现性好 ,求导带来的分辨率改善 、基线漂移消除的作用不明显 ,反而使信噪比降低而对模型产生负面影响。 2.3 LS-SVM回归 λ是正则化参数 ,起到权衡拟合精度与模型复杂度的作用回归模型可描述为 核函数 K(x , xi )定义了从原始变量所在的低维度空间向高维度空间做非线性映射的方式 。目前的支持向量机研究中对于核函数的选择并无一般的方法 ,但从核函数紧致性和计算复杂度来评价 ,径向基函数 RBF 核更具优势。 式中 ,σ 2 是 RBF 核函数宽度 。正则化参数 λ优化 、核函数 K(x ,xi )选择和核函数参数优化是 LS-SVM 的三个关键问题 。选用 RBF 核函数 ,用多层网格搜索 、十折交叉验证优化两个参数 λ和 σ2 。 设置多层搜索网格 ,按照经验值 ,λ初始优化范围是 e5~ e30 ,σ 2 初始优化范围是 e - 10 ~ e15 ,每层网格节点数 19 ×19 ,评价函数为十折交叉验证结果的均方根误差(MSE) ,两层网格最优结果 MSE 差值小于 10 - 4 时迭代收敛 ,最大迭代网格层数为 3 。 使用以上参数建立最终的钙模型和镁模型 ,模型经过校正集样本训练 ,然后做外部验证 。钙的 LS-SVM 模型校正集镁的 LS-SVM 模型 R2 c 为 0.996 1 ,R2 p 为 0.930 1 。详细结果在表 3 中列出 。图 4 、图 5 分别为钙 、镁的 LS-SVM 模型预测值与参考值相关关系图 。钙模型校正样本与外部验证样本在参考线附近紧致分布 。镁模型校正样本高度集中 ,验证样本较为松散 ,个别样本绝对预测误差达到 0. 2% ,有训练过度的可能 。但 RMSEP 为 0.06 ,RPD 为 3.79 ,模型基本具有良好的预测性能 。 3 结 论 |