论文部分内容阅读
目前,Internet的高速发展使得网络上的信息日益膨胀,Web已经成为人们获取信息的重要手段。为了使人们从庞大的网络信息中找到自己所需要的信息,就需要对网络上的信息进行组织和分类,因此基于Web的文本分类技术应运而生。基于Web的文本分类作为文本挖掘中的重要技术,是解决信息爆炸、信息组织、信息分类的有效途径。近年来,文本分类已经逐渐成为信息检索和信息过滤的研究基础。本文正是以基于Web的文本分类为研究目标,围绕着基于Web的中英文文本自动分类的实现方法和相关技术展开,主要研究内容和工作包括以下几个方面: (1)对基于Web的文本分类系统实现流程进行了研究与设计。在对文本分类方法和技术研究现状进行调研的基础上,分析了Web文本分类技术的实现特点与重点所在,提出了本文的研究思路并设计了系统的实现流程。 (2)实现了基于正则表达式的网页文本提取技术,并对文本预处理技术进行了研究。在研究从Web服务器获取网页源码技术的基础上,设计了一种正则表达式,以实现网页纯文本的提取,并研究和实现了利用向量空间模型表示文本的预处理技术。 (3)设计了面向文本表示的混合特征提取模型。通过分析对比常用的几种特征提取方法及其优缺点,选择了文档频率、互信息、信息增益、卡方统计四种特征提取模型,并对四个特征子集进行取并操作,实验表明利用该混合特征提取模型的效果比单一特征提取模型效果要好。 (4)分析设计实现了三种分类器模型。对当前比较热门的分类算法,介绍了常见的分类模型,并对各个模型进行研究和对比,根据特征集合的特点选取朴素贝叶斯模型、KNN、Rocchio分类模型分别进行中英文文本分类器模型的设计与实现,并通过实验测试进行对比分析了三种模型的分类性能。 通过对以上各个部分的整合,采用WindowsXP系统,利用VS2005为开发环境,C#为开发语言,以及SqlServer2005为后台数据库,设计实现了基于Web的中英文文本分类系统。