中文文本分类中的特征选择和权重计算方法研究

被引量 : 35次 | 上传用户：wxcheng823

【摘要】

：

作为组织和处理大量文本数据的关键技术，文本分类技术在有效解决了信息杂乱无章问题的同时，方便了用户准确的检索所需要的信息，在信息检索和过滤等方面具有很高的应用价值，逐渐成

【作者】

：

宋惟然

【发表日期】

：

2013年01期

【关键词】

：

文本分类特征选择不均衡数据集特征权重

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

作为组织和处理大量文本数据的关键技术，文本分类技术在有效解决了信息杂乱无章问题的同时，方便了用户准确的检索所需要的信息，在信息检索和过滤等方面具有很高的应用价值，逐渐成为人们研究的热点。特征选择作为文本分类技术的重要环节，通过对特征进行降维处理来提高分类器的效率和精度。由于类别和数据等层面的一些问题，特征选择方法面临着很多挑战。其中，不均衡数据的问题普遍存在于文本分类的应用领域。在不均衡数据集中，正类样本和负类样本数量相差悬殊，而大部分基于均衡数据集的传统机器学习算法在处理这类数据时，容易偏重于负类而忽略正类，从而使分类效果不理想。目前对于该类问题的研究集中在取样和算法两个层面。本文首先介绍了文本分类的概况和相关流程，包括预处理过程、特征选择和常用的分类算法等。随后，本文针对不均衡数据问题进行了深入的研究，并从特征选择层面上提出了解决的思路，在保证整体分类准确率前提下适当提高正类样本的分类准确率，结合类别区分度和平均词频因素，通过改进卡方统计量并与传统方法进行了多组对比实验。实验表明，改进后的卡方统计量在处理不均衡数据集问题时效果要优于传统的特征选择方法。同时，本文还对常用的特征权重计算方法进行了分析和研究，并在其基础上提出了TF-IDF与特征选择方法结合的改进方法，通过对不均衡语料集的分类实验，证明了我们提出的方法对于提高分类准确率是有效可行的。

其他文献

第一人称视角·心理视角·回溯性叙事的儿童视角——试述萧红小说的叙述策略

第一人称视角,情感判断上的心理视角和回溯性叙事的儿童视角,是萧红主要的叙事策略。而且,由于“回忆”这一更大的诗学范畴的汇入,鲜明地显现出了萧红作为一女性作家迥异于男

期刊

叙述策略第一人称视角心理视角儿童视角

基于正交试验的控制柜热设计研究

在已有机柜散热方式的基础上,采用整体区域的平均温度作为环境温度的近似,借助L64（98）正交表分析控制柜关键因素位置对其平均温度的影响。结果表明,左侧入风口和电子元件A1对平

期刊

控制柜正交试验平均温度热设计

微生物法检测婴幼儿奶粉中游离生物素方法研究

为了解决微生物法检测婴幼儿配方奶粉中生物素含量常遇到的问题,重点关注了试验过程中的标准曲线、培养基和接种液制备的操作细节。结果表明,采用该方法检测奶粉中的生物素时

期刊

游离生物素微生物法菌悬液标准曲线

食管胃结合部腺癌外科治疗进展

期刊

食管胃结合部腺癌近端胃切除术全胃切除术后食管胃结合部癌食管癌淋巴结TNMAEG外科治疗

千伏级锥形束CT与兆伏级电子摄野影像系统在鼻咽癌影像引导放疗的对比研究

目的：分析千伏级锥形束CT与兆伏级电子射野影像系统用于测量鼻咽癌调强放射治疗的摆位误差，评价两种技术在鼻咽癌调强放疗摆位修正中的应用价值。方法：选取施行IMRT的鼻咽癌患者

期刊

CBCT电子射野影像系统鼻咽癌图像引导调强放射治疗摆位误差

世界两大知名船级社助力中国海事服务

在首届中国国际进口博览会的1号馆中,美国船级社（ABS）和DNV GL集团引起了公众的关注。对于广大非海事界的参观者来说,最常见的问题就是船级社到底是做什么的？走进ABS展台,展台上

期刊

海事服务DNV美国船级社

浅谈趣味教学法在儿童二胡集体授课中的运用

民族器乐文化是传统音乐文化的重要组成部分,学习民族乐器有助于培养学生民族音乐素质,因此传统音乐纷纷走进课堂。二胡集体授课形式作为现代科技成果进入教学领域后产生的一

期刊

儿童趣味游戏快乐兴趣

半合管金刚石钻具在超深水平钻孔中的应用

文章主要介绍半合管金刚石钻具钻进水平孔的钻探工艺及效果分析。

期刊

半合管钻具水平孔钻进技术参数导向器

“百万人委员会”和冷战时期美国对华决策

利益集团是美国政治进程中十分重要的因素,是美国政治运作不可或缺的主角。利益集团本身并不直接参与决策,其目标主要是通过院外游说活动实现的。在美国众多的院外游说集团中

学位

“百万人委员会”“院外援华集团”对华决策政治过程模式

脊髓损伤心理压力应对量表的编制

目的：编制脊髓损伤压力应对量表,并评估其心理学特性。方法：根据压力与应对交互理论,通过个别访谈和文献回顾,初步编制了脊髓损伤压力应对量表,对261例患者进行测试,并对量表进

期刊

脊髓损伤应对量表心理测评

中文文本分类中的特征选择和权重计算方法研究

其他学术论文