论文部分内容阅读
随着网络技术的快速发展,传统各行业都逐渐与互联网进行融合,“互联网+”时代已悄然的改变了世界。文本分类技术是机器学习和自然语言处理领域中重要的应用,对维吾尔文文本分类技术的研究对提升新疆维吾尔语网络信息管理和网络服务水平具有重要的作用。本文首先阐述了传统文本分类技术的研究现状和实现过程。然后分析了中英文文本分类技术的差异,并结合维吾尔文字的构词特点和语法结构,实现了维吾尔文特有的组词计算。最后从文本分类的技术出发,在大量的实验基础上,构建了一个维吾尔文文本分类系统。针对传统文本分类技术的优缺点,本文提出了相应的改进和创新,取得的主要研究成果为: 首先,在文本分类的预处理阶段主要研究了维吾尔文组词。针对互信息组词算法中组词效率低和误组率高的问题,本文采用互信息和频繁模式相组合的Mi_pf组词方法,由于维吾尔文词组中能够组合的单词数一般不会超过3个,因此通过减少频繁模式中搜索窗口中的单词数来提高Mi_pf组词方法的执行效率; 其次,在文本分类的特征选择阶段主要研究了模拟人工鱼群优化的特征选择方法。为了提高鱼群寻优的能力和算法执行的效率,本文首先采用改进的Odd算法对样本集中的特征进行初提取,并生成与类别数目相同的n个特征池。然后再分别对每一个特征池进行人工鱼群算法来进行寻优,并计算出每个类别各自的特征子集; 再次,在文本分类的分类阶段主要研究了K_质心分类器的设计与实现。K_质心分类器设计目的是为了能够更好的适应本文的特征选择方法,该分类器具有两级分类结构的多分类器模型,其中两级分类结构为:以Na?ve Bayes和KNN分类器构成的类别判决器为第一级分类,以质心分类器为第二级分类; 最后,在此基础上设计并实现了维吾尔文文本分类系统,该系统主要由四个界面构成,包括主界面,维吾尔文组词界面,基于人工鱼群的特征选择界面,分类器界面。采用5组数据集进行实验分析,实验结果表明本文的研究在文本分类中具有较好的分类效果,分类准确率可达到96.49%。