论文部分内容阅读
随着Internet的飞速发展,WEB已经发展成为一种巨大的、分布式和共享的信息资源。目前WEB数据大多以HTML页面的形式出现。由于HTML语言的半结构化特征,以及嵌入网页的各种广告信息等原因,给基于网页内容的应用--搜索引擎带来很多困难。因此,需要研究一种有效的获取网页信息的方法。
本文通过对大量主题型网页的分析,发现主题型网页一般采用大段的文本来描述一个或多个主题。在HTML的DOM树形结构中,这些描述主题的文本信息通常分布在一些离得比较近的块节点下。通过对现有的各种网页信息抽取算法分析基础上,结合主题型网页的特点,本文提出了一种基于HTML块文本长度的网页主题信息抽取算法。然后在用于解析HTML的开源项目HTMLParser基础上实现了这个算法。
具体地,本文的主要工作有:
1.完善了关于网页分块的理论与相关概念,提出了块文本的概念。
2.通过分析不同类型网页的特征,提出了一种用于辨别网页类型的网页统计模型。
通过编程获取大量的基准网页,然后经过统计实验获得一种判断主题型网页的方法。
3.通过分析WEB全文搜索引擎的分析子系统和查询子系统中与网页数据直接或间接关联的关键功能模块,提出了一种方便实用的网页结构化模型。
4.在网页分块理论的基础上,提出了一种基于块文本长度的网页主题信息抽取算法。使用Java语言编程实现了这个算法,并通过实验证明该方法切实可行,具有较高的准确率。
5.在本文提出的的网页信息抽取算法、网络蜘蛛程序Heritrix、索引工具Lucene、MVC框架Struts2以及Ajax等基础之上实现了一个全文搜索引擎-东南大学校园搜索引擎。网页主题信息抽取算法