论文部分内容阅读
假药是世界各国共同面临的难题,2018年全球报道的假药事件就有4405起,在五年内已增长102%。我国从“十一五”至“十三五”国家药品安全规划都强调要严厉打击制售假劣药品等违法违规行为。近红外光谱(NIRS)分析技术因具有方便、高效、准确、成本低、可现场检测、不破坏样品、不消耗化学试剂和不污染环境等优势,从2004年起就被中国食品药品检定研究院应用于全国车载近红外药品快速分析系统,并装备于全国363个地市的400余台药品检查车。近红外药品快速分析系统通过定性方法来判断药品真伪,确定药品与其标签标示名称是否一致,通过定量方法来测定药品关键指标成分的含量,从而快速检验药品质量或判别药品是否为特定企业产品。目前,该系统保障了我国用药安全,节约了大量检测费用,积累了大量的现场快速检测获得的光谱数据和对应的实验室分析验证数据。但随着制假水平的提升,市场上更多的是以次充好或质量不达标的劣药,这些药品和真药有着相似的化学成分,鉴别他们难度更大,因此以下问题仍制约着NIRS分析技术在药品质量监督领域的大规模、深入应用和推广:1)NIRS分析技术作为一种间接测量方法,无法直接分析出被测样本的含量或类别,它依赖于化学计量学或者机器学习方法,其应用效果受制于建模方法及模型性能;2)在鉴别某一种药品时,进一步识别出生产厂商有利用于药品质量溯源,然而,同一品种不同厂商药品NIRS差异较小,并且全国药品品种、厂商繁多,需要收集大量样本并建立海量的独立鉴别模型,对分类算法的识别准确率和建模成本要求都非常高,目前也尚未见有适用于多品种、多类别的建模方法报道;3)建立准确的定量模型通常需要用湿化学方法测定大量样本的特定成分的准确含量作为参考值,该工作成本高且耗时,迫切需要一种能显著减少样本参考值测定需求的准确、稳定的通用建模方法;4)NIRS分析普遍存在模型不能跨机型、跨台应用的痛点,不利于大规模应用和推广国产近红外光谱仪,经典的模型转移方法对不同品种和不同厂商仪器之间的模型转移的研究较少,效果还不够好,前期积累的大量NIRS和检测数据无法被应用到新仪器或新品种的建模过程,不能达到节省建模成本和提升模型预测精度的目标。基于这些问题,本文围绕药品监督应用中NIRS建模的定性分析、定量分析和模型共享传递三个关键问题,从分类、回归和迁移学习三个方面开展研究,分析总结经典NIRS建模方法,进一步提出多种新颖有效的建模方法:(1)提出基于正则化监督字典学习的NIRS分类方法。药品监督过程中,真假药二分类判别法无法获取假药生产商信息并用于溯源;采用同品种多厂商分类的方法又因同一品种的NIRS活性成分特征峰重叠严重,类间差异不明显,而同品种同厂商的药品,又因批次、测量仪器或环境的不同导致光谱存在类内差异,致使分类困难、预测准确率不高。为了进一步提高同一品种多厂商的药品NIRS分类准确率,本文在具有较高的分类准确率的稀疏表示分类法(SRC)基础上,利用监督字典学习法可增加类间差异的优势,提出一种新的稀疏分类机制,为监督字典学习的目标函数增设了表示约束项和系数不相干项两个正则化项以描述类内差异性,通过这两个正则项可以得到编码系数的重构误差和相似样本之间的相关性,提高了数据的线性可分性和模型的预测准确率。本文提出的方法对同一品种不同厂商的药品进行多分类,其分类准确率比SRC、SVM和LC-KSVD等高2.26%~6.52%。在烟草数据集上验证该方法,其分类准确率相比其它方法高1.0%~10.7%,表明本文所提方法对NIRS分类具有一定的普适性。(2)提出结合CNN和NIRS的多品种多厂商药品精细分类方法。我国药品的品种、厂商繁多,药制企业超过7000家,常见品种也有上千种,若同时识别药品的品种和厂商,则需建立大类别数的分类模型;经典的多分类方法随着类别数量的增加,分类准确率大幅降低,不适合不同品种不同厂商药品分类。卷积神经网络(CNN)能进行端到端的学习和特征提取,具有极强的建模能力,二维CNN已在图像分类等领域取得较大成功,但将一维的NIRS转换为二维数据后采用现有的二维CNN模型进行分析,存在机械套用、计算开销大的问题。本文提出一种一维CNN光谱分类模型,可有效削弱因原辅料、测量环境和测量仪器等因素导致的NIRS差异影响,从而对多品种多厂商药品的NIRS精细分类具有较高的准确率,可根据未知药品的NIRS识别出其品种和生产商,便于对假药溯源并从源头治理。通过对2种药品共18个生产厂商进行18分类实验,当70%的样本作为训练集时,CNN的分类准确率为99.37±0.45%,比SVM、BP、自编码(AE)和极限学习机(ELM)的高4.04%~20.83%,说明本文所提出的方法具有更高的分类准确率、良好的鲁棒性和可扩展性,适用于多品种、多厂商的药品鉴别任务,亦可应用于其它领域的NIRS数据分析,也为接下来的深度迁移学习打下基础。(3)提出基于CNN-SVR的NIRS回归方法。多元线性回归(MLR)、偏最小二乘(PLS)等常用线性回归方法依赖于经验选取合适的预处理方法,线性模型的本质决定了其预测误差水平,还存在已有模型不能适配其它仪器的问题。虽然深度学习已被验证具有很好的特征提取能力,NIRS经CNN提取后的特征可直接应用于MLR实现端到端的分析,但是模型仅适用于同一厂商的单台仪器,对训练集的数量也有一定的要求,模型的泛化能力和鲁棒性也未能验证,不能建立一个能适用多台仪器鲁棒性强的回归模型。本文提出一种CNN-SVR建模方法,该方法由CNN提供端到端自动特征提取能力,SVR提供小样本学习能力,在CNN网络中将SVR应用于输出层并约束网络训练过程,通过L2正则化惩罚网络中过大的权值,通过ε-不敏感损失使得算法具有样本稀疏性。当仅使用IDRC 2002数据集中15%(96个)样本进行模型训练时,CNN-SVR模型的 RMSEP=3.018、R2=0.969,CNN、PLS 和 SVR 的 RMSEP比CNN-SVR大11%、30%和20%。实验结果表明,所提出的CNN-SVR算法对网络中的超参数不敏感,在小样本情况下也能训练出预测误差较小的模型,还可提取出样本本身的光谱特征,削弱光谱仪的台间差异,在一台仪器建立的模型可以直接预测同一厂商不同仪器没得的光谱,且R2最高可达0.979。总体来说,CNN-SVR具有更好的鲁棒性和可扩展性以及更高的预测精度,可实现端到端的定量分析。(4)提出基于迁移学习的NIRS建模方法。传统的药品鉴别方法每个品种都需要收集大量样本来建模,样本收集和建模成本高,前期积累的大量NIRS和检测数据不能很好应用到新仪器或新品种的建模过程。此外,测量仪器、环境和原辅料的差异影响着样品的光谱,可能会导致已建立的模型失效,虽然一些经典的模型转移方法能很好的解决同一厂商同一型号不同仪器之间的差异问题,但在不同厂商仪器间进行模型转移的效果并不理想。CNN能由浅到深逐层抽取数据特征,不同厂商仪器、不同品种药品的NIRS的浅层特征相似,因此,可充分利用已有大量标注数据(源域)训练的模型浅层信息,将其迁移到少量样本建模领域(目标域)。本文提出基于迁移学习的NIRS建模方法,通过共享模型中浅层卷积层参数,利用少量目标域已标记样本,运用迁移学习方法重新训练全连接层网络参数。首先实现药品品种间的分类模型迁移,将已有品种的分类模型迁移至新品种,当使用目标域药品30%的训练集时,迁移学习模型比使用CNN、SVM、BP、AE和ALM方法重新建模得到的分类正确率最多高2.49%~33.55%。然后实现仪器间的回归模型迁移,在同一厂商相同型号间的迁移实验中(IDRC 2002数据集),最小RMSEP=2.501,其他模型转移方法比迁移学习的RMSEP大8%~84%;在不同厂商仪器间的迁移实验中(IDRC 2016数据集),最小RMSEP=0.163,其他模型转移方法比迁移学习的RMSEP大51%~305%。结果表明,该方法在较少训练集的情况下也能训练出预测能力很好的模型,大大减少了对标注NIRS数据的依赖,并成功解决因测量仪器、测量环境改变而导致模型失效的问题,当目标域训练集样本增多时,使用目标域训练集进行迁移学习的模型预测能力优于重新建模。综上所述,本文所提出的方法较好地解决了 NIRS应用于药品监督时所遇到的多类精细分类、高精度回归、模型转移等重要问题,同时也验证了本文所提出的方法能够适用于其它领域的NIRS建模分析,具有很强的普适性。本文研究内容有望解决NIRS、红外、拉曼等分子光谱建模的共性难题,为相关领域的科研人员提供了许多有价值的线索,也为未来的研究工作奠定了基础。