论文部分内容阅读
当今信息时代,互联网信息技术高速发展,各类信息不仅满足了人们的日常生活,也在影响着整个社会的平稳健康发展。藏语作为中国少数民族中使用最多的语言之一,在藏族集中地区研究藏文信息处理显得尤为重要。目前,藏文信息处理技术正在日趋完善和成熟,但相对于中文信息处理技术,还存在着一定的差距,特别是在藏文文本自动分类方面。 研究藏文文本分类对于在民族地区的信息筛选、舆情监测、数字图书馆建设等方面具有十分重要的意义。文本分类的方法主要有朴素贝叶斯(Na?ve Bayesian)、基于支持向量机(Support Vector Machines,SVM)、K-最近邻法(KNN)、神经网络法(Neural Network,NNet)、决策树(Decision Tree)、Rocchio分类等。本人通过查阅大量文献,发现目前深入研究藏文文本分类的方法相对较少,通常有朴素贝叶斯和K-最近邻法,虽然都取得了一定的实验效果,但研究方法较为单一,不利于对藏文文本分类技术开展更加深入的研究。本文在前人研究的基础上采用基于支持向量机(SVM)的分类方法对藏文文本分类开展一定的研究和实验,并与朴素贝叶斯、K-最近邻法进行对比和分析。 支持向量机(Support Vector Machines,SVM)是近几年发展起来的新型分类方法,是在高维特征空间使用线性函数进行分类的系统,在分类方面具有良好的性能[1]。SVM最初应用于线性二分类系统,通过寻找两个类别的最优超平面,对其进行分类。在解决非线性问题时,通过某种非线性映射将输入变量映射到高维特征空间,在高维空间内构造最优超平面。从低维向高维转换,会出现高维空间计算困难的问题,容易造成“维度爆炸”灾难,为解决这一问题,相关学者适时引入了核函数。对于多分类问题,可通过“一对一”、“一对多”、决策树等方法构造多个SVM分类器来实现。 本文主要对藏文分词、文本表示、特征选择、分类方法等开展深入的研究,其中重点研究了特征提取和支持向量机的分类技术在藏文文本分类的应用,并通过具体实验对比优化,提出符合藏文文本分类的方法。 藏文分词技术与藏文语料库的丰富与否将直接影响到藏文文本分类的结果。本文所采用藏文分词器为西藏大学自主开发的岗杰藏文分词器,有较高的正确率。藏文语料库分为政法、经济、文学、生活等七大类,各类文章共计2200篇,内容较为丰富。本文将抽取其中70%作为训练集语料,剩余30%作为测试集语料。