三七粉品质的红外光谱快速检测算法及应用研究

来源 :西南大学 | 被引量 : 1次 | 上传用户:jhiphop
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实现中药材品质的快速检测,提高中药粉末混合物中次品和伪品的检测能力,在药品安全抽检监测,以及保障消费者的生命安全和维护消费者的合法权益等方面都有较大的研究价值。三七作为一种名贵中药资源,实现三七粉品质的快速和无损检测有重要的理论和应用意义。由于三七的药用价值高、种植难度大、价格昂贵,导致市场上出现大量三七粉的假冒伪劣产品,损害消费者的利益,危害消费者的健康。本文利用红外光谱测量三七粉及其常见次品和伪品的分子光谱信息,结合机器学习方法建立三七粉品质的快速检测模型,提出共现特征学习方法,增强模型的泛化能力。开发光谱数据自动分析平台,加快数据分析的效率。论文的主要研究工作及成果如下:(1)实现不同等级三七粉混合物的快速鉴别,并结合数据融合和优化算法提高混合物的鉴别精度。以20头和140头三七粉作为研究对象,按12种(最小混合比为5%)不同比例,混合不同等级的三七粉。测量样品的傅里叶变换中红外(Fourier transform mid-infrared,FT-MIR)光谱,结合机器学习模型实现不同等级三七粉混合物的快速鉴别。首先,依次使用区间偏最小二乘(Interval partial least squares,iPLS)算法和主成分分析(Principal component analysis,PCA)选择特征变量。然后,根据线性判别分析(Linear discriminant analysis,LDA)和支持向量机(Support vector machine,SVM)模型的校正准确率随主成分数的变化,确定使用11个主成分建模。最终,得到PCA-LDA的校正准确率和测试准确率分别为:99.72%和100%,PCA-SVM的校正准确率和测试准确率分别为:98.61%和100%。为了进一步提高检测精度,融合FT-MIR和近红外(Near infrared,NIR)光谱数据,基于粒子群优化(Particle swarm optimization,PSO)算法优化SVM模型。实验设计14种(L14,最小混合比为1%)和15种(L15,最小混合比为0.5%)混合比进行对比实验。使用9个主成分建模时,SVM在L14和L15上的预测准确率分别为:92.46%和91.97%,PSO-SVM在L14和L15上的预测准确率分别为:96.65%和96.97%。实验结果表明,FT-MIR光谱结合机器学习能有效鉴别两种不同等级三七粉混合物,通过数据融合和优化算法能提高模型的鉴别能力。三七按头数分级,等级较多,该研究为鉴别其它不同等级三七粉混合物提供了研究基础。(2)基于衰减全反射傅里叶变换红外(Attenuated total reflection-Fourier transform infrared,ATR-FTIR)光谱实现感染根结线虫病三七及其产地的多标签鉴别,同时实现健康和不健康三七粉混合物的快速无损鉴别。采集3个不同产地的健康三七和感染根结线虫病三七,测量三七粉的ATR-FTIR光谱。多元散射校正(Multiplicative scatter correction,MSC)作为数据预处理方法,竞争性自适应重加权采样(Competitive adaptive reweighted sampling,CARS)和连续投影算法(Successive projection algorithm,SPA)选择17个特征变量。具有噪声应用的基于密度的空间聚类(Density-based spatial clustering of application with noise,DBSCAN)观测样本的子集,每个子集为一个簇,共得到6个簇。基于二元关联法(Binary relevance method,BR)、分类器链(Classifier chain,CC)、集成分类器链(Ensembles of classifier chains,ECC)和多层感知分类器(Multilayer perceptron classifier,MLPC)建立健康和不健康三七粉的多标签分类模型,测试集的精度、召回率、F分数和准确率作为评价指标。实验结果表明,使用集成分类器链考虑标签顺序的影响,能显著改善多标签分类的结果。在健康三七粉中按8种不同的比例掺入感染根结线虫病三七的粉末,测量混合物的ATR-FTIR光谱。使用一阶导数结合7点Savitzky-Golay平滑作为数据预处理方法,使用iPLS和CARS选择特征变量。最后使用反向传播神经网络(Back-propagation neural network,BPNN)和nu-SVM建立健康和不健康三七粉混合物的快速鉴别模型。nu-SVM模型基于125个特征变量的建模效果较好,校正准确率和预测准确率分别为:91.97%和98.67%。(3)提出共现特征学习方法以提高模型的泛化能力,并对不同产地三七根茎部不同部位进行定性和皂苷的定量鉴别研究。测量三七主根、剪口和须根的ATR-FTIR光谱,使用共现特征学习方法结合SVM、BPNN、长短时记忆(Long short-term memory,LSTM)和卷积神经网络(Convolutional neural networks,CNNs)鉴别三七根茎部不同部位的粉末。采集21个不同产地的三七样品,测量得到3065条红外光谱。使用7种不同预处理方法处理原始光谱数据,人工选择1662.366-941.5894 cm-1作为特征波段。极端随机树(Extremely randomized trees,Extra-trees)算法结合基尼系数(Gini index)计算预处理后的光谱数据和原始光谱数据变量的Gini重要性并排序,然后从中选择19个共现特征变量。比较共现特征学习方法选择的19个共现特征变量与传统方法选择的前19个特征变量的建模结果。实验结果表明,SVM和BPNN基于共现特征学习方法在独立测试集上有更好的泛化能力,LSTM和CNNs基于共现特征变量得到的分类结果最佳,测试集的准确率分别为:96.00%和95.20%。结果表明,本文提出的共现特征学习方法能有效提高模型分类准确率和泛化能力。此外,使用高效液相色谱法(High performance liquid chromatography,HPLC)分别测量20个不同产地的三七主根、剪口和须根中的人参皂苷Rg1、Rb1和三七皂苷R1的含量,结合ATR-FTIR光谱,建立偏最小二乘(Partial least squares,PLS)回归模型实现三七根茎部不同部位皂苷含量的快速预测。(4)研究开发光谱数据自动分析平台,实现自动筛选最佳预处理方法和多种常用机器学习模型,加快光谱数据分析的效率。同时基于光谱数据自动分析平台和共现特征学习方法,建立了三七粉与七种常见伪品混合物的快速鉴别模型。光谱数据自动分析平台主要基于光谱数据求导、Savitzky-Golay平滑、MSC和标准正态变量变换(Standard normal variate transformation,SNV)算法,设计了41种常用的不同组合方式的预处理方法。使用PLS建立每种预处理方法的评价模型,设计模型结果的评价规则,自动筛选出最佳预处理方法。为了增强计算平台的易用性,基于J2EE开发计算平台的客户端,实现数据提交功能和建模结果展示。Python语言实现服务端的计算模型,使用远程过程调用框架Thrift实现客户端与服务器端跨语言的参数传递。基于该平台实现三七粉与七种伪品混合物的快速鉴别。首先,将三七粉与七种常见伪品按不同比例混合,测量得到3550条ATR-FTIR光谱数据。然后,使用光谱数据自动分析平台选择最佳预处理方法,共现特征学习方法选择特征变量。最后,基于计算平台快速建立LDA、BPNN和SVM模型。实验结果显示,SVM的建模效果最好,交叉验证准确率和预测准确率为:97.33%和97.41%。结果表明,该计算平台能有效的自动筛选最佳预处理方法,结合分析平台中的机器学习模型,能极大的提高光谱数据分析建模的效率。
其他文献
该研究调查了重庆璧山区主要病害——黄瓜细菌性角斑病的发生动态,同时开展了田间药剂防治试验。结果显示,黄瓜挂果期该病增长迅速,病情指数从20.13跃升至40.42;用常用药剂防
为了弄清攀钢镀锌卷无铬钝化表面处理板产生白锈缺陷的原因,结合无铬钝化液成膜机理、无铬钝化液成膜的工艺,利用扫描电镜(SEM)检测、镀锌板面粗糙度检测分析了缺陷产生的原
一、案例及分析案例12003年,某企业与外商达成加工贸易协议,协议规定双方使用对开信用证进行支付,我企业购买价值80万美元的机器设备和原材料,加工成品出口抵消机器设备和原
后现代主义和二次现代性是西方对现代性批判的两个维度,其实质都是重构、重写现代性。这双重维度启示我们,现代性并没有终结,而是不断超越的,必须坚定中国建构后发现代性的决心;必
目的探讨旋转式细胞培养系统(rotary cell culture system, RCCS)模拟微重力环境对人胃黏膜上皮GES-1细胞代谢组学的影响。方法通过体外培养人胃黏膜上皮GES-1细胞,选取3~10代