论文部分内容阅读
因特网上的信息日益丰富,已经成为知识获取的一个重要来源。信息资源的丰富也使信息的检索有如大海捞针,检索到自己所需要的信息资源效率不高。对信息进行整理,提高信息检索的效率具有非常重要的意义。本课题的研究的内容是对中文WEB文档进行自动整理归类,以提高用户对信息检索的体验,它也是搜索引擎的核心技术。本课题开发的中文WEB文档自动分类工具有较好分类准确度,也为进一步研究打下了基础。 本文首先介绍了文本自动分类的主要方法,分析了中文WEB文档的特点,提出了中文WEB文档自动分类的主要技术问题,介绍了中文WEB文档自动分类工具的总体设计,它主要包括网络蜘蛛、中文分词、特征选取和贝叶斯分类器等功能模块。接着分析了各模块的主要算法和Java实现方法。最后对中文WEB文档自动分类器进行了实验,对我们所构建的中文WEB文档自动分类工具的性能进行了评估,实验表明此工具有较高的分类准确度,达到了设计的要求。 本论文的结构如下: 第1章:对目前的文档分类技术进行了分析,着重指出了中文WEB文档分类的特殊性,提出了研究的主要内容。 第2章:对中文WEB文档自动分类器进行了总体设计,制订了它的各个功能模块及每个模块的主要功能。同时也阐述了所使用的新方法。 第3章:讲述了网络蜘蛛抓取WEB文档的原理,分析了对WEB文档进行结构化解析的主要技术和网络蜘蛛的实现方法。 第4章:分析和比较了多种中文分词实现方法,对最大匹配分词法进行了改进,提高了中文分词的效率和准确度。并给出了实现的技术细节,特别是对中文词典的实现方法作了详细介绍。 第5章:分析了多种特征选取算法,比较了它们的优缺点,提出了文档频度与词条频度相结合的特征选取算法,并对此方法的实现进行阐述。 第6章:分析了贝叶斯机器学习方法的主要思想,对贝叶斯方法用于文档归类的原理进行了剖析。详细介绍了贝叶斯分类方法的算法与实现。 第7章:讲述了文本分类的评价标准,通过实验对本课题所构建的分类工具进行了评估,总结了研究成果,指出了不足并提出了改进意见。