论文部分内容阅读
互联网的迅猛发展带动了网络应用的快速增长,互联网为用户提供了种类繁多的网络业务,并不断满足网络用户的各种需求。每天都会产生海量的数据信息,过滤不良信息,筛选有用的信息,具有重要的研究价值与工程意义。本文致力于网络应用的业务重组与内容提取的研究与实现,主要工作内容包括三个部分,网络业务重组设计与实现、基于正则表达式的论坛社区应用的内容提取与安全审计、基于DOM树的网页内容提取与分析。本文首先介绍了HTML语言、DOM模型以及涉及到的报文采集技术,数据包重组技术等关键技术。其次,设计与实现了网络业务重组过程,其中介绍了数据包重组过程,并使用了libnids开源库实现了TCP会话重组,并对HTTP数据进行了压缩解码与块解码,得到了web页面。再次,采集几十种热门论坛通信数据,通过分析得到了几种常用的论坛通用系统,并提取了论坛识别特征,提出了论坛指纹概念,优化了传统的论坛审计方法。最后,结合网页特点与提取信息的特征,提出了基于DOM的网页提取方法:对网页进行预处理,选择标签作为网页提取特征,通过构建DOM树,实现了对网页内容的快速提取。通过这个方法完成了网络办公管理服务系统的软件版本跟踪模块,并分析了网页特征提取方法与网页特点。