论文部分内容阅读
随着科学技术的发展,互联网已成为我们生活密不可分的一部分,它为我们的生活提供了极大的便利,推动了社会的发展和进步,带给我们一个全新的时代,它广泛应用于商业、教育、娱乐等领域。但是,因特网中信息的互联性、开放性、交互性给社会带来信息共享的极大便利的同时,也带来了许多的安全隐患。袭击Internet是非常容易的,这是因为Internet的安全隐患主要源于计算机网络的脆弱性、网络通信协议本身固有的缺陷、网络软件与网络服务存在漏洞、网络结构和网络硬件存在安全缺陷。Web应用程序便存在很多的漏洞,在众多的Web应用程序安全漏洞中,跨站脚本攻击(XSS)所占比例位居榜首,如何高效的检测出XSS漏洞是当前我们研究的热点。本文主要工作有以下几个方面:1、详细阐述了跨站脚本攻击的基本原理、分类及危害,同时介绍了跨站脚本攻击的防范策略。2、详细阐述了网络爬虫的概念、爬虫策略和爬虫分类,讨论分析了网络页面分析、爬虫队列设计、DNS缓存策略等技术。3、设计实现了基于网络爬虫的XSS漏洞检测系统,详细介绍了爬虫模块、漏洞检测模块。在爬虫模块中使用Gzip对数据进行压缩后再传送,页面下载时采用I/O完成端口模型,页面解析时采用正则表达式匹配,URL去重时提出M-Interval-Hash新算法;在漏洞检测模块采用特征库匹配技术。4、通过将M-Interval-Hash算法和MD5算法进行比较得出本文提出的算法在URL去重效果上更佳;在漏洞检测时,通过和另外两种XSS漏洞检测工具Acunetix WVS和XSSer进行比较得出本文技术能够检测出更多的XSS漏洞,并且在检测时所花的时间更少。