论文部分内容阅读
伴随着Internet的飞速发展,Web上出现了海量的、异构的、半结构化的、动态的信息资源,并且在这些Web信息中有80%以上的信息是以Web文本的形式存在的。如何从这些浩如烟海的Web信息资源中寻找并获取有价值的信息和知识模式,已经成为信息处理领域的一个亟待解决的问题。Web文本分类可以有效的解决上述问题,它起源于ATC技术(自动文本分类技术),是Web文本挖掘的关键组成部分;Web文本分类可以提高用户进行网上信息搜索的效率,可以对搜索结果进行分门别类,帮助用户快速的对目标知识进行定位,并且能够从中抽取有价值的知识。本文首先介绍了文本自动分类的主要方法,分析了WEB文档的特点,提出了WEB文本自动分类所要研究的两个技术层面:信息抽取和文本分类,研究了基于视觉的WEB文本抽取和基于支持向量机的多层次文本分类方法,并进行了WEB文本自动分类工具的总体设计,它主要包括网页采集、信息抽取、文本预处理和文本分类等功能模块,在以上研究的基础上最后提出了分类搜索引擎的设计。最后通过本文所设计的WEB文本自动采集和分类系统结合SQL Server 2005 Text Mining对本文所提出的理论方法进行了实验,实验表明信息抽取比较准确、分类方法有较高的准确度和运行效率。