维吾尔文文本分类技术研究

来源 :新疆大学 | 被引量 : 0次 | 上传用户:iceqi77
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的快速发展,传统各行业都逐渐与互联网进行融合,“互联网+”时代已悄然的改变了世界。文本分类技术是机器学习和自然语言处理领域中重要的应用,对维吾尔文文本分类技术的研究对提升新疆维吾尔语网络信息管理和网络服务水平具有重要的作用。本文首先阐述了传统文本分类技术的研究现状和实现过程。然后分析了中英文文本分类技术的差异,并结合维吾尔文字的构词特点和语法结构,实现了维吾尔文特有的组词计算。最后从文本分类的技术出发,在大量的实验基础上,构建了一个维吾尔文文本分类系统。针对传统文本分类技术的优缺点,本文提出了相应的改进和创新,取得的主要研究成果为:  首先,在文本分类的预处理阶段主要研究了维吾尔文组词。针对互信息组词算法中组词效率低和误组率高的问题,本文采用互信息和频繁模式相组合的Mi_pf组词方法,由于维吾尔文词组中能够组合的单词数一般不会超过3个,因此通过减少频繁模式中搜索窗口中的单词数来提高Mi_pf组词方法的执行效率;  其次,在文本分类的特征选择阶段主要研究了模拟人工鱼群优化的特征选择方法。为了提高鱼群寻优的能力和算法执行的效率,本文首先采用改进的Odd算法对样本集中的特征进行初提取,并生成与类别数目相同的n个特征池。然后再分别对每一个特征池进行人工鱼群算法来进行寻优,并计算出每个类别各自的特征子集;  再次,在文本分类的分类阶段主要研究了K_质心分类器的设计与实现。K_质心分类器设计目的是为了能够更好的适应本文的特征选择方法,该分类器具有两级分类结构的多分类器模型,其中两级分类结构为:以Na?ve Bayes和KNN分类器构成的类别判决器为第一级分类,以质心分类器为第二级分类;  最后,在此基础上设计并实现了维吾尔文文本分类系统,该系统主要由四个界面构成,包括主界面,维吾尔文组词界面,基于人工鱼群的特征选择界面,分类器界面。采用5组数据集进行实验分析,实验结果表明本文的研究在文本分类中具有较好的分类效果,分类准确率可达到96.49%。
其他文献
随着人们生活水平的提高、电子产品的发展,数码相机在日常生活、航空测量、水下拍摄、卫生医疗等方面得到广泛的应用。本论文以日常生活取景的数码相机为研究对象,虽然当前数码
随着传统石油、化石等一次能源储量的不足,以及石油、化石能源大量消耗带来的日益严重的环境问题,人们开始意识到发展可再生能源的重要性。近年来,各种可再生能源随着科技的发展
液压传动系统具有传动比大,运行平稳,有效防止过载,易于实现无级调速,易于实现自动控制和远距离操纵等优点,已广泛应用于工业生产的各个领域。在工程船舶领域,液压系统已经取代了电
燃料电池作为一种新的氢能发电装置,具有能量转换效率高、燃料多样化、对环境污染小、可靠性及维修性好等优点,被认为是今后替代汽车传统内燃机最理想的驱动源。内阻是反映燃料
网络控制系统是控制科学和计算机网络及通信技术的综合应用。然而网络的介入会给系统带来新的问题,其中网络诱导时延、数据包丢失、网络调度等都将使得网络控制系统的分析与
本课题来自国家自然科学基金资助项目“风力发电并网逆变器的智能故障诊断方法研究”(项目编号:61364010)。由于日益严重的环境问题,清洁能源越来越广泛的受到人类的关注,因此风力
Markov跳变系统是一类由时间与事件共同驱动的随机混杂系统,其状态变量是由系统状态和系统模态两个部分组成。系统的各个模态之间的随机跳变服从一个Markov过程,并且用此来描述
生态问题一直是人们普遍关注的问题,特别是生态问题中的食饵-捕食者模型,则处于举足轻重的位置。如何更有效的控制、调节生物种群,使之保持良性发展,则具有非常重要的生态意
随着蓄电池行业水平的发展对产品质量控制和售后服务的要求,蓄电池行业需要在蓄电池生产的化成过程对蓄电池的充放电情况进行监控。蓄电池的化成生产车间内,往往有超过4000个
随着全球经济一体化步伐的加快,世界各国之间的贸易往来日趋频繁,集装箱运输业的发展受到空前的重视。但是,随着集装箱运输业的飞速发展,集装箱码头面临的挑战也越来越严峻,如何快