论文部分内容阅读
互联网的迅速发展导致网上信息飞速增长,形成了我们不能忽视“信息爆炸”的问题——信息极大丰富却导致知识的难以查询。目前,WEB已经发展成为拥有3亿页面的分布式信息空间,而在这些异质的3亿WEB页面的资源中,蕴含着大量的人们迫切需要的知识。本文针对网页采集、网页净化、获取文档特征量、WEB文本聚类这几部分内容,进行了深入的研究,完成了以下工作:(1)介绍了网页采集的基本原理,研究并且比较了目前常用的几种网络信息采集算法。(2)为了有效对网络信息进行处理,必须对采集进来的网页进行净化,本文介绍了网页净化基本原理,研究分析了各种网页净化方法。(3)提出了一种新的网页净化算法——基于dom树的网页净化算法。该算法通过比较同一网站网页的dom树来净化网页。(4)研究比较了国内当前比较流行的中文分词算法,比如基于字典词库匹配的分词方法、基于词的频度统计的分词方法、基于知识理解的分词方法。(5)介绍了如何通过向量空间模型建立WEB文档的特征向量。(6)研究了两种常用的WEB聚类算法——k平均算法和som算法。(7)提出了一种新的WEB聚类算法,投影WEB聚类算法。