奥谱天成(厦门)科技有限公司
Optosky Technology Co., Ltd.
服务热线:
0592-6102588

近红外光谱法结合最小二乘支持向量机测定烟叶中钙 、镁元素

发表时间:2016-06-13 09:46作者:田旷达,邱凯贤来源:万方数据网址:http://www.wanfangdata.com.cn/

 近红外光是波长在 780 ~ 2 526 nm 范围的电磁波 。有机物分子在这一范围内的吸收光谱携带有含氢基团 (C — H ,N — H ,O — H 等)伸缩振动的倍频与合频信息 。近红外光谱(NIR)结合化学计量学的分析技术具有快速 、无损 、多组分同时分析的优势。定量分析常用的化学计量学多元校正方法有多元线性回归 、主成分回归 、偏最小二乘回归 (PLSR)等 。在解决比尔定律描述的吸光度与化学组分含量呈线性关系的回归问题时 ,PLSR 具有十分优秀的分析能力 。但受光的散射效应 、待测物分子间缔合作用的影响 ,化学组分含量与近红外光谱还呈现出复杂的非线性对应关系 。这限制了PLSR 等线性回归方法的准确性 ,有必要尝试非线性回归方法解决准确定量的问题 。支持向量机(SVM )基于统计学习理论 ,通过核函数将非线性求解转化为在高维空间中线性求解 ,能够解决线性和非线性多元回归问题 。相比于神经网络等非线性方法 ,SVM 具有收敛快 、解稳定 、推广性强的优点 。最小二乘支持向量机(LS-SVM )是 SVM 的扩展算法 ,使用误差的二范数作为损失函数 ,将二次规划问题转为线性规划 ,大幅简化运算 。
  钙 、镁元素对于烟草植株的生长发育 、代谢以及烟叶的质量 、产量有重要影响 ,是配方设计和质量监控必不可少的指标 。钙元素以果胶酸钙的形式在细胞壁结构中起粘合剂的作用 ,参与细胞壁合成和降解有关的酶的活性调节 ;镁是叶绿素 a(C55 H72 MgN4 O5 ) 、叶绿素 b(C55 H70 MgN4 O6 )的中心原子 ,参与光合作用 、糖酵解 、三羧酸循环 、呼吸作用 、硫酸盐还原等过程 。植物体内钙 、镁元素的传统分析方法为原子吸收光谱法(AAS) ,需要配置标准系列溶液 ,预处理过程复杂 、耗时 。钙和镁不直接吸收近红外光 ,但在植物体内与有机物结合(果胶酸钙 、叶绿素)使得钙 、镁元素可被 NIR 技术间接测定 。 Morón 等使用 NIR 漫反射光谱对紫花苜蓿和白三叶草中多种宏量无机元素定量分析 。王冬等建立 PLS线性回归近红外模型测定烟叶钙和烟叶镁含量

 本工作研究目的是探究 NIR 技术结合 LS-SVM 方法建立非线性多元回归模型以准确测定烟草中钙 、镁元素的可行性 。

1 实验部分

 1.1 试剂与仪器
 500个烤烟烟叶样品均来自云南省曲靖市烟区 。近红外光谱仪为 MATRIX- Ⅰ (Bruker Optics ,Bremen ,Germany ) 。
1.2 实验过程
  烟叶样品按照烟草行业标准 YC /T 31 — 1996 烘干 、研磨制备成粉末样品 。将粉末装入样品杯 ,摇动使样品较为均匀 ,使用压样器将样本压实 ,然后置于光谱仪的旋转台上 。旋转采样过程中 ,漫反射积分球收集样品近红外光谱 ,参比使用内置的陶瓷片 。谱区采集范围为 10 000 ~ 4 000 cm - 1 ,光谱分辨率为 8cm-1,扫描次数为 64 。
  对采集的近红外光谱数据进行处理 ,剔除异常样本 ,以混合的建模策略划分校正集和验证集 ,选择光谱波长范围 ,挑选合适的预处理方法 ,优化 LS-SVM 参数 。建立钙、镁元素的LS-SVM 回归模型,评价模型的预测性能。数据处理使用 MATLAB7.0(The Math Works,Natick,USA ) ,LSSVM 使 用 工 具 箱 LS-SVMlab Toolbox v1. 8 (J.A.K.Suykens ,Leuven ,Belgium)。
2 结果与讨论
2.1 样本挑选与建模策略

 500个烟叶粉末样本的近红外漫反射光谱显示在图 1 中 。其钙 、镁元素含量由 AAS 法测定作为参考值显示在表 1 中

 近红外光谱检测受到环境温度 、仪器状态的影响 ,难免存在光谱异常的样本 。这些样本引入模型会降低模型的预测性能 。光谱异常样本的检测采用主成分分析(PCA )和马氏距离(MD)相结合的 PCA-MD 方法 。马氏空间中样本杠杆值大于平均杠杆值的 3 倍即为异常样本 ,图 2 中阈值表示为直
线 ,编号 5 — 11 和 236 号样本为异常值 。推测部分样本异常的原因是测量时间较早 ,仪器尚未进入正常工作状态 ,所以同时剔除编号 1 — 11 的样本 。化学值异常没有明确的界定方法 ,实验中将严重偏离模型预测值-参考值曲线的 221 号样本归为化学值异常 。光谱异常和化学值异常的样本总数不超过总样本的 5% ,属于正常范围 。

 随后 ,487 个样本采用 Kennard-Stone(K-S)方法划分为 200 个校正样本和 287 个外部预测样本 。为选择最佳的光谱预处理方法 ,按照蒙特卡洛交互验证(Monte Carlo cross-validation ,MCCV )以 9 ∶ 1 的比例将200 个校正样本随机划分为 MC 校正集和 MC 验证集 ,训练
并验证模型 ,划分及建模过程重复 500 次 ,以蒙特卡洛均方根误差(root mean square error of MCCV ,RMSEMCCV )作为判据 ,评价模型和优化模型参数 。计算如下式

 其中 nv为 MC 验证集样本数 , N 为建模次数 , yi 和 ^ y i 分别为第 i 次建模 MC 验证集样本的参考值和预测值 。在建立多元回归模型的过程中 ,十折交叉验证结合网格寻优求解最佳的模型参数 。图 3 描述了该建模策略 ,应用三种划分验证集的方法分别实现 :评价最终模型 、优化光谱预处理方法和优化 LS-SVM 参数 。其中 ,K-S 具有选择代表性样品的优势 ;MCCV 避免了模型过度拟合验证集样本的风险 ,能够给出准确 、稳定的验证结果 ,适于预处理方法比较 ;由于每次改变校正集都需要重新计算 LS-SVM 参数 ,为平衡计算复杂度和结果可靠性 ,模型参数优化选用十折交叉验证。

2.2 光谱预处理
  观察烟草粉末近红外漫反射光谱 ,在 5500 和 7300cm- 1附近 ,水蒸气引起光谱较高频率的波动 。利用导数光谱对高频信号的放大作用 ,找出水蒸气峰的范围 :7450~7250和 5600~ 5300 cm - 1 。原始光谱在这些谱区受水蒸气干扰 ,引入到模型中会影响预测性能 ,对于非线性模型噪声维度可能增加“过拟合”风险 ,所以删除该区域的波长变量 。由于在波长 8750 cm - 1以下检测器灵敏度较低 ,且处于有机物分子振动的 4 倍频区 ,近红外吸收较弱 ,这一范围内光谱变化平缓 。 为了提高光谱信噪比 ,删除了 1000 ~ 8750cm-1之间的波长变量。

 应对固体粉末样本对光的散射效应 ,多元散射校正(MSC)和标准正态变量变换 (SNV )是两种有效的散射校正方法 ,常用的光谱预处理方法还有平滑 、求导 、去趋势算法和标准化 。对光谱恰当的预处理有助于提高模型性能 ,使用MCCV 在多种预处理方法及其组合中选择最佳的预处理方法 ,即 RMSEMCCV最小值对应的方法 。为尽量避免信号失真使用的平滑算法采用 Savitzky-Golay 卷积法(S-G) 。

  表 2 是多种预处理方法的交叉验证结果 。波长选择对钙 、镁模型作用明显 ,SNV 和 MSC 均能够提高模型预测能力 ,二阶导数预处理使模型变差 ,标准化和去趋势算法对模型影响不大 ,钙 、镁回归模型最佳预处理方法均为 SNV 。可见 ,散射校正对于粉末样品的近红外光谱是必要的 。另外由于实验所用光谱仪器的分辨率高 、重现性好 ,求导带来的分辨率改善 、基线漂移消除的作用不明显 ,反而使信噪比降低而对模型产生负面影响。

2.3 LS-SVM回归
  基于结构风险最小化原则 ,LS-SVM 优化以下问题

λ是正则化参数 ,起到权衡拟合精度与模型复杂度的作用回归模型可描述为

  核函数 K(x , xi )定义了从原始变量所在的低维度空间向高维度空间做非线性映射的方式 。目前的支持向量机研究中对于核函数的选择并无一般的方法 ,但从核函数紧致性和计算复杂度来评价 ,径向基函数 RBF 核更具优势。

  式中 ,σ 2 是 RBF 核函数宽度 。正则化参数 λ优化 、核函数 K(x ,xi )选择和核函数参数优化是 LS-SVM 的三个关键问题 。选用 RBF 核函数 ,用多层网格搜索 、十折交叉验证优化两个参数 λ和 σ2 。

 设置多层搜索网格 ,按照经验值 ,λ初始优化范围是 e5~ e30 ,σ 2 初始优化范围是 e - 10 ~ e15 ,每层网格节点数 19 ×19 ,评价函数为十折交叉验证结果的均方根误差(MSE) ,两层网格最优结果 MSE 差值小于 10 - 4 时迭代收敛 ,最大迭代网格层数为 3 。
  钙的 LS-SVM 模型经过 3 层网格搜索得到最优参数 λ为e16. 11,σ2 为 e8. 42 。镁的 LS-SVM 模型在第 2 层网格即达到最优解 ,λ为 e15. 25 ,σ 2 为 e6. 32 。
  

 使用以上参数建立最终的钙模型和镁模型 ,模型经过校正集样本训练 ,然后做外部验证 。钙的 LS-SVM 模型校正集镁的 LS-SVM 模型 R2 c 为 0.996 1 ,R2 p 为 0.930 1 。详细结果在表 3 中列出 。图 4 、图 5 分别为钙 、镁的 LS-SVM 模型预测值与参考值相关关系图 。钙模型校正样本与外部验证样本在参考线附近紧致分布 。镁模型校正样本高度集中 ,验证样本较为松散 ,个别样本绝对预测误差达到 0. 2% ,有训练过度的可能 。但 RMSEP 为 0.06 ,RPD 为 3.79 ,模型基本具有良好的预测性能 。
  为了进一步评价 LS-SVM 方法 ,使用相同的校正集建立PLSR 模型 ,十折交叉验证优化模型维度 。 钙 PLSR 模型LVs 为 18 ,R2 c 和 R2 p 分别为 0.959 3 和 0. 934 4 ,镁 PLSR 模型 LVs 为 15 ,R2 c 和 R2 p 分别为 0.958 2 和 0. 894 2 。LS-SVM的预测结果较 PLSR 更为准确。

3 结 论
  研究了烟叶中钙和镁元素的 NIR 结合 LS-SVM 检测方法 。使用 LS-SVM 建立钙 、 镁的预测模型 ,钙模型 R2 c 为0.9755, R2 p 为0.9422; 镁 模 型 R2 c 为 0.9961 , R2 p 为0.9301。说明使用 NIR 结合 LS-SVM 方法测定烟叶中钙 、镁元素是可行的 。与 PLSR 模型对比可以发现 ,就本实验使用的数据来说 ,LS-SVM 具有更加准确的预测能力 。 LSSVM 在预处理方法选择 、参数优化 、模型训练的过程比较耗时 ,但预测新样品速度很快 。使用训练好的模型 ,单个样本从光谱扫描到完成分析仅需数十秒 ,可以满足在线监测的需要 。

会员登录
登录
我的资料
留言
回到顶部