论文部分内容阅读
冷冻电镜技术近年来在结构生物学领域取得了丰硕的成果,其中单颗粒冷冻电镜图像分类技术对提高三维模型重构的分辨率有重要作用。单颗粒图像信噪比极低,现有基于PCA等方法单颗粒冷冻电镜图像分类方面还有很大提升空间,而当前还未有应用神经网络等新技术解决单颗粒图像分类问题的研究。本文以单颗粒图像处理问题为研究背景,探索神经网络和密度峰值聚类算法在单颗粒冷冻电镜图像分类领域的应用。本文主要关注应用神经网络对颗粒图像进行特征提取,并优化密度峰值聚类算法来对图像特征分类。神经网络方法提取颗粒图像特征面临的问题有:颗粒图像信噪比低,并且特征不明显,直接应用现有的深度学习方法效果不佳;图像具有旋转变换,而神经网络提取的特征往往无法正确区分颗粒的主要特征;由于颗粒数据的多样性,颗粒图像往往是没有标签的,有监督的神经网络分类方法不适用于解决颗粒图像分类问题。在颗粒图像分类问题上,由于颗粒特征维度高,密度峰值聚类算法比K-means分类效果更好,但是在颗粒图像数据上存在计算复杂度高的问题。本文针对这两种方法面临的问题进行研究,主要工作如下:提出两种基于神经网络的单颗粒冷冻电镜特征提取方法。本文提出一种将SIFT特征与autoencoder结合(SIFT+AE)的方法,实验表明该方法可以达到93%的分类准确率,优于用DEC(Deep Embedding Clustering)、DSC(Deep Subspace Clustering)等单纯神经网络或者SIFT提取特征得到的分类结果。本文提出使用单层卷积autoencoder提取特征,并通过词袋模型来对颗粒图像分类,在几种单纯神经网络特征提取方法中达到了最好的准确率和NMI。基于GPU的高效密度峰值聚类并行算法。本文分析了密度峰值聚类算法(DP)的原理,研究其计算瓶颈,并评估其并行潜力。在此基础上,提出了一种针对GPU架构的DP的高效并行算法CUDA-DP。CUDA-DP算法使用共享内存,减少全局内存访问量;为了利用GPU的合并访问机制,将CUDA-DP程序的数据结构从AOS(Array of Structure)重构为SOA(Structure of Array);通过引入二进制搜索和采样方法,以避免排序大数组。实验结果表明,CUDA-DP分类准确率达到95%,优于K-means分类的结果,而且与基于CPU的密度峰值算法相比,CUDA-DP在单颗粒冷冻电镜图像分类任务中最高可以实现45倍加速。综上所述,本文研究并提出了基于神经网络的单颗粒冷冻电镜图像分类方法和基于GPU的高效密度峰值聚类并行算法,实验结果表明本文提出的分类方法较其他基于神经网络的方法在单颗粒冷冻电镜图像分类问题上准确率更高,并且本文提出的CUDA-DP可以获得很好的加速效果,并成功应用在单颗粒冷冻电镜图像分类问题上。