【摘 要】
:
支持向量机在机器学习方面具有良好的泛化能力、直观的几何解释和严格的数学理论基础,是机器学习领域发展很快的工具。文本分类技术是利用计算机技术在预先给定数据类别的情
论文部分内容阅读
支持向量机在机器学习方面具有良好的泛化能力、直观的几何解释和严格的数学理论基础,是机器学习领域发展很快的工具。文本分类技术是利用计算机技术在预先给定数据类别的情况下,根据数据文本的内容判定文本的类别,也就是为文本指定预先定义的类别标记,以帮助人们在当今互联网时代在大量信息中提取、过滤和管理文本数据。本文将支持向量机的训练算法研究与文本分类相结合,作为本文研究的对象,其主要工作如下:首先,本文在分析了支持向量机数学原理和相关技术现状的基础上,阐述了目前支持向量机的几种常用的训练方法,并提出了一种改进的支持向量机训练方法NEW_SMO。该方法针对支持向量机在训练时缓存使用的不足,在二次逼近的基础上将违反KKT条件程度最厉害的样本提取出来,然后缓存这些样本,作为工作集的选择范围,并且改变了支持向量机的停机条件。该方法提高了核缓存的命中率,减少了工作集选择的代价,从而减少了训练时间。实验表明,该方法能够很好地提高支持向量机的训练速度。其次,本文在目前文本分类的研究背景和技术现状的基础上,使用基于特征向量的机器学习方法对文本分类进行研究。本文结合了主成分分析的方法和传统的DE-IDF方法作为特征选择方法,以增加特征向量的区分度。减少了SVM分类器学习和预测的类别数量和计算量。最后,本文将上述改进算法应用到文本分类中。实现了一个文本分类系统原型。通过对搜狗文本分类数据集的实验,证明了改进支持向量机能有效解决文本的自动分类问题。
其他文献
音乐对于电影的重要性已经被所有电影人所认同,而涉足电影音乐结构理论研究的人却还是凤毛麟角。本文力争从一个全新的视角去理解电影音乐的结构。首先,基于电影故事结构存在
双及物构式作为一种重要的语言现象,在诸多语言中都存在。它在句法学以及语义学的研究中占据着独特的地位,由于其独特性,深受语言学家们的关注,成为语言学研究的一个焦点问题
近年来,国际金融危机对我国经济和政治各领域的影响不断深化,同时因为我国社会主义市场经济建设和全面步入小康社会的需要,国家加大了对高等教育的投入,高校扩招比率的不断增
在经济全球化背景下,日本经济在二战以后保持了将近半个世纪的高速增长,相比与西方发达国家,日本经济令人称羡,但是到了上世纪80年代中后期日本却出现了严重的经济泡沫,并最
国有企业是我国国民经济的支柱,由国务院国资委履行出资人职责的中央企业则是国有企业的重要组成部分。作为国民经济的主导力量,中央企业的发展壮大涉及到我国国有经济布局和
文章论述了新闻标题的"分句隐含",主要考察"评价义"分句隐含标题。认为句法语义上,分句隐含标题可划分为多种形式;语用效果有前后隐含、引人入胜、表意含蓄、语篇连贯、简洁明了
现代物流作为一种先进的组织方式和管理技术,被广泛的认为是企业在降低物质消耗、提高劳动生产率以外的重要的“第三利润源泉”,在国民经济和社会发展中发挥着重要的作用。近
中国传统色彩体系在传统哲学思想的浸染下,历经数千年的沉淀与演变,从而最终形成了完整的“五色观”色彩体系。“五色观”色彩体系与中国传统文化血脉相连,特别是五行与五色
对外汉字教学是对外汉语教学中最重要的部分之一,汉字难教、难学的问题是对外汉语教学界讨论最多、但一直没有得到解决的问题。汉字学是以研究汉字本体为主要内容的科学,研究
铅基陶瓷是一种在电能量存储、能量转换、大位移致动器等领域中都具有广泛应用的材料。在近十年来,纯锆酸铅和掺杂改性的锆酸铅基陶瓷的因为其具有优良的电性能和成熟的制备