WEB文本挖掘系统

来源 :浙江工商大学 | 被引量 : 0次 | 上传用户:refreshingmind
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的迅速发展导致网上信息飞速增长,形成了我们不能忽视“信息爆炸”的问题——信息极大丰富却导致知识的难以查询。目前,WEB已经发展成为拥有3亿页面的分布式信息空间,而在这些异质的3亿WEB页面的资源中,蕴含着大量的人们迫切需要的知识。本文针对网页采集、网页净化、获取文档特征量、WEB文本聚类这几部分内容,进行了深入的研究,完成了以下工作:(1)介绍了网页采集的基本原理,研究并且比较了目前常用的几种网络信息采集算法。(2)为了有效对网络信息进行处理,必须对采集进来的网页进行净化,本文介绍了网页净化基本原理,研究分析了各种网页净化方法。(3)提出了一种新的网页净化算法——基于dom树的网页净化算法。该算法通过比较同一网站网页的dom树来净化网页。(4)研究比较了国内当前比较流行的中文分词算法,比如基于字典词库匹配的分词方法、基于词的频度统计的分词方法、基于知识理解的分词方法。(5)介绍了如何通过向量空间模型建立WEB文档的特征向量。(6)研究了两种常用的WEB聚类算法——k平均算法和som算法。(7)提出了一种新的WEB聚类算法,投影WEB聚类算法。
其他文献
随着互联网的不断发展,网站类型、数量及功能不断增加。人们对网络信息的依赖程度也不断增强,由此产生的网站可用性问题日益突出,如何改善网站可用性已经成为值得关注的问题
世界能源产业动荡不定,油气市场竞争激烈,企业的经营环境发生着剧烈变化。我们正处在淘汰别人或被别人淘汰的大变革时代,是生与死的抉择时代。要在这样激烈的竞争时代中生存与发