论文部分内容阅读
随着网络的普及和飞速发展,网络资源已经成为一个普遍全球的信息宝库,使得人类全部的信息资源以前所未有的方式和程度在全球内互相连通,它作为一个开放的分布式的信息空间,网络中的信息量也以指数的速度增长。如何利用计算机进行智能化的信息处理成为近几年来研究的热点和焦点。由于侧重点的不同,我们可以将其分为如下几个领域:信息检索、信息提取、文本分类、文本摘要等研究领域,其中文本分类是一个广为关注的课题,这项技术有很广的市场应用价值。
文本表示是进行文本分类研究的前提。我们常用的文本表示的方法有基于向量空间的文本表示方法和基于统计语言模型的文本表示方法。特征提取和文本表示方法是影响文本分类器两个重要因素。如何选取特征,用什么样的方式将其表示出来直接影响到文本分类器的速度和性能。
在数据挖掘的诸多方法中,我们首先对基于向量空间的几种常用分类方法(布尔模型、向量空间模型、BP神经网络),进行实验和性能比较。并通过实验分析出向量维数、阈值等参数设置对各类模型的影响,为各种分类算法的改进提供了理论依据。
在基于统计语言模型的文本分类方法中,本文主要研究了最大模型和决策树模型。ID3算法是信息过滤中采用较广泛的方法。在对ID3算法学习分析研究的基础上,实现了一个基于ID3算法的决策树分类程序,该程序可以对中文信息进行有效的分类。此外,该程序还可以从分类数据中提取分类规则,这些规则可以根据需要进行增加、删除和修改。实验结果表明决策树分类器确实是一种有效的分类技术。本文还提出了一种改进的ID3算法,以调高运算率。
齐普夫定律首次揭示了西方语系中词频和词序号关系,有很广的应用价值。本文实现了一个词频统计程序,通过对中文词频的统计验证了齐普夫定律同样适用于中文词的分布。同时提出了齐普夫定律参数的估计方法和参数适应性验证方法。