中文文本分类中的特征选择和权重计算方法研究

被引量 : 35次 | 上传用户:wxcheng823
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为组织和处理大量文本数据的关键技术,文本分类技术在有效解决了信息杂乱无章问题的同时,方便了用户准确的检索所需要的信息,在信息检索和过滤等方面具有很高的应用价值,逐渐成为人们研究的热点。特征选择作为文本分类技术的重要环节,通过对特征进行降维处理来提高分类器的效率和精度。由于类别和数据等层面的一些问题,特征选择方法面临着很多挑战。其中,不均衡数据的问题普遍存在于文本分类的应用领域。在不均衡数据集中,正类样本和负类样本数量相差悬殊,而大部分基于均衡数据集的传统机器学习算法在处理这类数据时,容易偏重于负类而忽略正类,从而使分类效果不理想。目前对于该类问题的研究集中在取样和算法两个层面。本文首先介绍了文本分类的概况和相关流程,包括预处理过程、特征选择和常用的分类算法等。随后,本文针对不均衡数据问题进行了深入的研究,并从特征选择层面上提出了解决的思路,在保证整体分类准确率前提下适当提高正类样本的分类准确率,结合类别区分度和平均词频因素,通过改进卡方统计量并与传统方法进行了多组对比实验。实验表明,改进后的卡方统计量在处理不均衡数据集问题时效果要优于传统的特征选择方法。同时,本文还对常用的特征权重计算方法进行了分析和研究,并在其基础上提出了TF-IDF与特征选择方法结合的改进方法,通过对不均衡语料集的分类实验,证明了我们提出的方法对于提高分类准确率是有效可行的。
其他文献
第一人称视角,情感判断上的心理视角和回溯性叙事的儿童视角,是萧红主要的叙事策略。而且,由于“回忆”这一更大的诗学范畴的汇入,鲜明地显现出了萧红作为一女性作家迥异于男
在已有机柜散热方式的基础上,采用整体区域的平均温度作为环境温度的近似,借助L64(98)正交表分析控制柜关键因素位置对其平均温度的影响。结果表明,左侧入风口和电子元件A1对平
为了解决微生物法检测婴幼儿配方奶粉中生物素含量常遇到的问题,重点关注了试验过程中的标准曲线、培养基和接种液制备的操作细节。结果表明,采用该方法检测奶粉中的生物素时
目的:分析千伏级锥形束CT与兆伏级电子射野影像系统用于测量鼻咽癌调强放射治疗的摆位误差,评价两种技术在鼻咽癌调强放疗摆位修正中的应用价值。方法:选取施行IMRT的鼻咽癌患者
在首届中国国际进口博览会的1号馆中,美国船级社(ABS)和DNV GL集团引起了公众的关注。对于广大非海事界的参观者来说,最常见的问题就是船级社到底是做什么的?走进ABS展台,展台上
民族器乐文化是传统音乐文化的重要组成部分,学习民族乐器有助于培养学生民族音乐素质,因此传统音乐纷纷走进课堂。二胡集体授课形式作为现代科技成果进入教学领域后产生的一
文章主要介绍半合管金刚石钻具钻进水平孔的钻探工艺及效果分析。
利益集团是美国政治进程中十分重要的因素,是美国政治运作不可或缺的主角。利益集团本身并不直接参与决策,其目标主要是通过院外游说活动实现的。在美国众多的院外游说集团中
目的:编制脊髓损伤压力应对量表,并评估其心理学特性。方法:根据压力与应对交互理论,通过个别访谈和文献回顾,初步编制了脊髓损伤压力应对量表,对261例患者进行测试,并对量表进