论文部分内容阅读
随着网络信息的迅猛发展,信息处理已经成为人们获取有用信息不可缺少的工具。文本自动分类系统是信息处理的重要研究方向。它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程,具有很重要的现实意义,对电子政务、联机出版、网络信息检索与服务、公共电子图书馆和大规模真实语料库的建设等领域更具有广阔的应用前景。本文从面向应用、面向大规模、面向真实文本等实际需求的角度出发,从以下几个方面展开了对中文文本自动分类系统的研究:首先是汉语自动分词技术的研究,包括词语粗切分、未登录词识别、词性标注排歧等。在词语粗切分中,我们综合最短路径方法与全切分方法,提出了一种基于N-最短路径一元统计的粗分模型对中文词语进行粗分;在未登录词识别中,我们分别对数词短语、叠字词、名字的识别提出了不同的识别方法。其中,在对名字的识别过程中,我们采用了Viterbi算法,确定句中概率最大的上下文信息状态序列,并结合文本的局部统计量,对人名、地名、译名进行匹配识别;而对于词性的标注排歧,我们是采用了CLAWS算法的思想,结合每个词的各个词性标记具有不同概率的特点,基于隐马尔科夫模型进行的。其次是关于分类器的设计方面,我们着重解决了特征词的抽取、文本的表示、采用支持向量机方法对分类器的设计实现。对于特征词的抽取,我们是根据香农信息学的理论,从每类文本集的高频词词库中去掉停用词词库中的词,得到每类对应的类型词词库,在此基础上设计特征词加权函数进行特征词的抽取和加权;而文本的表示问题,我们采用的是基于向量空间模型的数字化表示方法,利用文本的特征单元形成向量空间,文本最后被形式化为N维空间的一个向量D;在分类器的设计实现中,我们根据各类别文本数据间的特点,提出了一种在线性可分支持向量机的基础上,根据训练学习中拒识样本数的信息,给其最优分类面中加入了一个松弛项η的改进方法,实现了一个基于支持向量机方法的文本分类器,并取得了较为满意的分类效果。