论文部分内容阅读
随着计算机网络共享性、开放性、互连程度的不断发展以及计算机本身的普及,如今互连网已经深深的渗透到了人们生活的各个领域。因此,如何保障人们在上网的同时不被敏感网络信息所危害就显得越来越重要,近年来随着带有敏感信息的网络图片的不断增多,对带有敏感信息的网络图片的识别和审查变得越来越重要了。 本着帮助相关审查人员审查网络图片并屏蔽掉带有敏感图片的网站的目的,论文设计并实现了该审查系统。本系统包含了网络图片的获取和存储、图片文本区域的定位和文字识别以及人工审查三个模块。通过爬虫程序从指定的网站爬取图片,并将图片信息存储到数据库中,将图片保存到指定路径下。在文本定位时,利用SIFT算法进行特征提取和特征匹配,将爬虫保存的图片逐个读出,提取它们的SIFT特征,进行特征匹配,找到可能存在的文本区域,然后通过预定位和连通体分析方法准确定位出文本区域,并使用文字识别软件(OCR)对提取的文字进行识别,由系统将识别结果反馈给相关审查人员。审查人员在获得系统的反馈信息后,根据反馈信息的内容,对相应的网站做出相应的处理。 通过对部分网站的测试发现,论文所做的工作能够获得网站中的图片并对部分图片的文本区域进行的正确定位,然而对于某些背景特别复杂的图片并没有很好的效果,这是本系统的文本定位算法需要在下一步作出改进的地方。