论文部分内容阅读
目标检测作为计算机视觉领域不可或缺的部分,其方法的研究一直被紧密关注。在传统的方法中通过建立复杂的模型,根据图像的纹理、光照等特征进行定位和分类,存在泛化性差、计算量大等问题,不适合对当前大规模图像的处理。卷积神经网络的崛起为目标检测提供了新的研究方法,通过使用卷积神经网络弥补了传统方法的缺点。目前已有的基于卷积神经网络的单阶段典型的目标检测算法有YOLO(You Only Look Once)算法和SSD(Single Shot Multibox Detector)算法。SSD算法在目标检测方面已经取得了良好的结果,但仍然存在诸如对上下文信息的理解不足以及深层信息丢失等问题,还需要更深层次的研究。视盘是医生在诊断治疗眼底疾病时必须详细观察的区域,研究眼底图像中视盘的自动检测方法可以辅助医生完成大量工作。在传统的视盘检测方法中,主要依靠视盘的特征比如形状、亮度、血管走向等构建出匹配特征的算法来检测视盘,这些方法由于人为因素影响较大,特征提取时间较长,且视盘定位效率低,因此不适合大批量、高效的视盘检测。针对以上问题,本文围绕目前SSD算法存在的一些问题以及典型目标检测算法在视盘上的应用这两个关键点展开研究,论文研究的主要内容如下:(1)提出了单次目标检测算法CP-SSD(Context Perception SSD)。CP-SSD算法通过使用上下文信息场景感知模块促进网络对全局信息的理解,从而捕获不同规模目标的特征信息。深层使用了语义激活模块,通过自我学习的方式来调整上下文特征信息和通道之间的相互依赖关系,并增强有用的语义信息。CP-SSD算法在标准数据集PASCAL VOC 2007上得到了验证。实验结果表明,CP-SSD检测算法的mAP达到77.8%,比SSD算法高0.6%,在难以区分物体与背景的图像中检测效果明显提高。(2)结合目前深度学习在目标检测方面的优势,采用一种基于卷积神经网络的目标检测算法对眼底图像中视盘进行检测,提高准确率。在本文中主要通过YOLO算法以及CP-SSD算法在视盘数据集上进行了研究。YOLO算法将眼底图像输入网络结构中被划分成为N×N个网格,每个网格检测是否有视盘中心点落入该网格中。在预测的过程中,采用小尺度特征图融合大尺度特征图的方法输出不同尺寸的边界框,对于全部输出的边界框经过非极大抑制阈值筛选,最终检测出视盘区域。在CP-SSD算法中,对眼底图像首先进行下采样,然后在VGG16网络结构后面加入上下文感知模块,加强对眼底图像全局信息理解,同时在不同尺度的卷积层预测前增加语义增强模块,使得网络更准确的对视盘进行检测。本文将YOLO算法以及CP-SSD算法分别在DRIVE、DRISHTI-GS1和MESSIDOR三个公开的标准的视网膜图像数据集上进行了实验,两种算法的视盘检测准确率均是100%。实验同时检测出视盘的中心点坐标与标准中心点的平均欧氏距离分别为15.43px和22.45px,平均每张眼底图像检测所需时间为0.1s,0.1476s,验证了基于卷积神经网络算法检测视盘的方法的高效性和准确性。