互联网业务重组与内容提取

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:huapdf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的迅猛发展带动了网络应用的快速增长,互联网为用户提供了种类繁多的网络业务,并不断满足网络用户的各种需求。每天都会产生海量的数据信息,过滤不良信息,筛选有用的信息,具有重要的研究价值与工程意义。本文致力于网络应用的业务重组与内容提取的研究与实现,主要工作内容包括三个部分,网络业务重组设计与实现、基于正则表达式的论坛社区应用的内容提取与安全审计、基于DOM树的网页内容提取与分析。本文首先介绍了HTML语言、DOM模型以及涉及到的报文采集技术,数据包重组技术等关键技术。其次,设计与实现了网络业务重组过程,其中介绍了数据包重组过程,并使用了libnids开源库实现了TCP会话重组,并对HTTP数据进行了压缩解码与块解码,得到了web页面。再次,采集几十种热门论坛通信数据,通过分析得到了几种常用的论坛通用系统,并提取了论坛识别特征,提出了论坛指纹概念,优化了传统的论坛审计方法。最后,结合网页特点与提取信息的特征,提出了基于DOM的网页提取方法:对网页进行预处理,选择标签作为网页提取特征,通过构建DOM树,实现了对网页内容的快速提取。通过这个方法完成了网络办公管理服务系统的软件版本跟踪模块,并分析了网页特征提取方法与网页特点。
其他文献
肺结核是严重威胁人类健康的疾病之一,在传染病发病网络报告中,肺结核病发病和死亡人数始终位居各种传染病前列。目前,在临床医学诊断中,仍然采用医生阅读肺部影像的诊断方式。然而,病患数量过多会导致放射科医生的工作任务重,压力大,且诊断效率低。因此,应用计算机做出辅助诊断成为了时下研究的热点问题。本课题设计并仿真实现了一个应用在肺部X线摄片的肺结核的自动诊断系统,取得了较高的诊断准确率。诊断系统包括肺实质
学位
学位