文本分类中的特征降维方法研究

被引量 : 0次 | 上传用户:tan123456654
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的普及和高速发展,使得网络上的电子文档迅速增加,但是给用户带来大量信息的同时,使得用户查找、过滤和管理这些海量信息非常困难。因此,文本分类技术的研究引起了人们的持续关注。文本分类大致分为5个流程:文本预处理、特征降维、特征加权、分类器训练和分类器性能评估。一个文本集在文本预处理中经过分词、去除停用词后,得到了文本集的原始特征词集合,之后进行特征降维,选出对文本类别区分能力较强的特征词,继而利用特征加权公式计算降维之后各个特征词的权重,根据向量空间模型(VSM)将文本表示成由一定数量特征词构成的空间向量,然后进行分类器训练得到分类器,最后利用相关的指标对分类器性能进行评估。其中,特征降维在文本分类过程中具有非常重要的作用,利用好的特征降维方法来降低向量空间的维数,不仅能提高分类器的速度,节省存储空间,还能过滤掉一些无关属性,从而减少无关信息对文本分类的干扰,提高文本分类的精度。根据产生新特征词方式的不同,特征降维可分为特征选择和特征抽取。常用的特征选择方法有:文档频率(DF)、互信息(MI)、信息增益(IG)、X~2统计量(CHI)、文本证据权(WET)、优势率(OR)和多种方法的组合等。这些特征选择方法的基本思想是使用某种评估函数对每个特征词打分,然后把特征词按照分值从高到低排序,取分值排前的一些特征词组成降维后的特征集合。本文详细分析了常用的特征选择方法,发现这些方法要么没有考虑词频,在一定程度上倾向于选择稀有特征词,要么没有考虑特征词与类别的关系。针对这些方法的不足本文提出了一种新的特征选择方法,该方法结合了文本类间集中度、文本类内分散度和词频类间集中度来计算特征词在每个类别的评估函数值,并利用其最大值与次大值之差作为特征词的最终评价函数值。本实验将文档频、互信息、信息增益和X~2统计量与提出的方法进行比较,然后用查全率、查准率和F1值来评价分类的效果。新的特征选择方法不仅考虑了词频、特征词与类别的关系,而且计算复杂度更小,因此,特征降维效果更优。同时由于MI和X~2统计量在求取全局评估函数值也可以采用最大值与次大值之差的形式,因此在实验中验证了这种全局评估函数在MI和X~2统计量中的有效性。
其他文献
本文利用渭河流域21个气象站及8个水文站1960—2010年的资料,针对气象和水文干旱问题,把干旱分为由无旱到特旱5个等级,建立了渭河流域分区干旱综合评价指标体系;根据干旱综合
干扰素治疗B族柯萨奇病毒呼吸道感染52例临床观察赵方*何文洪**黄开伟(武汉市儿童医院内科,武汉430016)关键词干扰素;柯萨奇病毒,B族;呼吸道感染干扰素(IFN)具有抑制病毒繁殖、抗细胞分裂和免疫调节作
<正> 朱镕基经济政策的提出与实行 朱镕基1997年在香港,1998年在两会,两次答记者问,倾倒无数听众,恐怕不仅仅是由于他口才好、业务精,更重要的是朱镕基的经济思想,符合中国目
<正>2010年12月18日,寒冷的北京因一场别开生面的报告会而变得春意盎然、充满温馨。这天晚上,由中央文明办、中国文联、国务院国资委主办,中国曲艺家协会、中国铁建承办的"全
目的观察大蒜素对D-半乳糖致衰老大鼠脑部衰老的影响,并从氧化应激通路入手探讨其中可能的机制。方法取50只雄性SD大鼠作为研究对象,随机分为5组(n=10):正常组(C组)、D-半乳
<正> 祭文是中国古代用于祈祷雨晴,驱逐邪魅,祈求福祥,哀悼死亡时常用的一种文体。随着社会的发展,祭文那种神圣庄严,沟通天上人间、阴阳两界、人、鬼、神、灵的职能已逐渐消
期刊
以蒙古族医学理论体系中的重要概念"赫依"为例,系统考察了蒙古族公众对于"赫依"的理解,比较了蒙医理论中的赫依和公众理解中的赫依之异同,从一个特殊的视角展现了蒙古族公众
产业集群是新型城镇经济发展和竞争力提升的重要推动力,而新型城镇化是产业集群的催化剂,两者之间存在着相互作用的关系。本文通过计量模型对广西省产业集群和新型城镇化之间
肿瘤坏死因子在宫颈癌组织中表达的免疫组化研究265200莱阳解放军第145医院徐廷香,李西启,王剑波关键词肿瘤坏死因子;子宫颈肿瘤;免疫组织化学中国图书资料分类号R711.74早期发现的TNF是由活化巨噬细
用Achenbach父母用儿童行为评定量表(CBCL)和教师报告表(TRF)对39例多动症,31例多动症伴学习困难的9~11岁男性儿童与同年龄、性别的正常儿童进行对照评定。发现两临床组的CBCL