【摘 要】
:
随着大数据时代的快速发展,互联网上出现了大量杂乱无章的高维文本信息,要使用多项式朴素贝叶斯分类器(MNB)对这些高维文本信息进行高效准确的分类,就需要进行特征选择。传统特征选择算法使用一个所有类共用的特征子集来进行分类,这个共用的特征子集如果维度过高,就会导致计算复杂度较大,如果维度过低,就会忽略掉那些样本较少的类的特征,不适用于处理不均衡数据集分类问题。并且特征降维后会丢失一些与识别相关的信息,
论文部分内容阅读
随着大数据时代的快速发展,互联网上出现了大量杂乱无章的高维文本信息,要使用多项式朴素贝叶斯分类器(MNB)对这些高维文本信息进行高效准确的分类,就需要进行特征选择。传统特征选择算法使用一个所有类共用的特征子集来进行分类,这个共用的特征子集如果维度过高,就会导致计算复杂度较大,如果维度过低,就会忽略掉那些样本较少的类的特征,不适用于处理不均衡数据集分类问题。并且特征降维后会丢失一些与识别相关的信息,导致分类精度降低。在对高维文本进行分类时,有效的特征选择可以提高分类精度,最小化特征降维所带来的损失可以在降低复杂度的同时保证分类精度,所以本文将从这两方面进行研究。本文提出了一种类特定指数族分布算法(CSEF),首先基于信息增益使用类特定特征选择算法(CS)找到每个类别具有最大区分度的类特定特征子集,然后构建一个包含整个训练集分布信息的参考类别,根据这个参考类别使用指数族分布(EF)将降维后特定类的CPDF从低维特征空间投影回原始空间,在原始空间中找到每个类最优的CPDF来构造出决策边界进行分类。将CSEF算法应用到MNB分类器中,利用特定类在特征空间的CPDF重构类在原始空间的CPDF估计表达式,通过最小化类原始CPDF估计表达式和原始CPDF之间的KL距离,估计出最优自然参数,得到每个类别最优的CPDF并构建出CSEF-MNB分类模型。本文对比KMRS-KNN分类算法、Ada Boost-C4.5分类算法,在python平台上使用均衡的20Newsgroups语料库和不均衡的复旦大学语料库进行仿真实验。仿真结果表明,在面对均衡数据集和不均衡数据集时,CSEF-MNB分类算法在使用少量的特征进行分类时,就可获得高分类准确率和F1值,并且随着特征维度的增加,分类效率的优化程度体现的更加明显。说明了CSEF-MNB分类算法在分类效率和分类准确率上都得到了优化,特别是在处理不均衡数据集中更多类的分类问题时,该分类算法的分类性能将更加显著。
其他文献
The rapid development of the agriculture and livestock industry promotes economic growth,but it also leads to an increase in demand for energy and generated was
基层员工是企业发展的基石,绩效是每个基层员工追求的工作目标,也是企业发展不可或缺的推动力。近年来,学者们通过优化考核目的、改进考核指标、加强考核反馈等手段来提高绩效考核效果。尽管学者们发现了许多影响绩效考核效果的因素,但是有关考核主体对绩效考核效果的影响研究却并不深入。事实上,取得良好的绩效考核效果,不仅依靠基层员工的个人努力,同样也离不开绩效考核主体的准确评价。本文从自我决定理论和公平理论入手,
背景:昼夜节律是一种随日变化和季节性变化同步振荡的生物进程,受到内源性时钟基因和外源性环境变化的共同调控。褪黑激素(Melatonin,MT)是一种普遍而保守的吲哚类生物胺,广泛存在于脊椎动物和无脊椎动物体内。MT同时是一种生物体昼夜节律的指示和调控因子。尽管甲壳类动物的昼夜节律遵循日周期和季节周期,但对其调节机制的研究仍显不足,并且不同种类的差异性较大。目的:本研究阐述了中华绒螯蟹在自然光照条件
随着电子战在未来军事领域中的地位日益提升,电子侦察作为电子战的先驱愈发显得关键重要。在实际战场环境中,通过运用电子侦察手段,往往能够提前获取到敌方雷达辐射源信息,从而可以快速制定相应的军事策略并采取行动加以防护,极大提升了侦察方的威胁告警以及军事防御能力。然而,从传统的电子侦察手段看,之前所采用的侦察方式大多都是针对辐射源个体的静态信息而进行的,并不能针对辐射源的行为属性及意图进行深入地分析,以实
在大十九大“乡村振兴”的政策方针之下,在农村经济改革和新农村建设持续热潮下,近年来我国乡村旅游市场遍地开花,发展势头迅猛,各种农家乐、水果采摘、赏花会、周末自驾游如雨后春笋般兴起,千篇一律的乡村旅游开发,乡村旅游市场难免出现诸如景区开发不合理、配套设施跟不上、服务水平低、生态破坏严重等诸多矛盾和不协调的现象,这些问题单靠市场自我消化是解决不了的,需要依靠政府的力量来加以治理。旅游市场这只无形之手与
近年来,化石能源短缺和环境污染的问题日益严峻,充分地开发利用可再生能源是解决这些问题的关键。光电化学(PEC)水分解制氢为太阳能到氢能的转化提供了切实可行的解决方案,实现了太阳能的有效利用,这也是解决能源危机最有希望的策略之一。PEC水分解包括三个主要过程:光生电荷的产生,光生电荷的分离与传输以及水的氧化还原反应。光阳极材料的合理设计对实现高效的PEC水分解系统至关重要。大多数金属硫化物由于具有较
档案记录着人类社会发展的点点滴滴,是人类社会活动的原始记录,它既发挥着传承历史文化的作用,也在各种社会活动中实现其价值。社区作为基层组织承担着社会基层管理的责任与义务,社区档案更是记录着社区居民的基本信息和实践活动的具体内容,档案留存下来的不仅是真凭实据,也传承并留存了社区服务活动的轨迹。社区档案工作虽然有较大的进步,但面对如何构建社会主义和谐社区这一难题,档案的服务作用仍需要大力开发。因此本文力
随着电力电子技术在工业上的发展,非线性设备的大量使用导致大量谐波和无功电流注入电网。有源滤波器作为常见的治理无功和谐波电流的装置,得到广泛的应用。本文围绕高次谐波的滤除和电流补偿技术进行研究:本文首先对三电平有源滤波器的主电路拓扑进行简要概述,通过比较三种主电路拓扑结构,选取二极管箝位型逆变器作为有源滤波器主电路拓扑。并从直流侧电压波动原理对直流侧电容参数进行优化设计。此外,根据逆变器最大纹波电流
在语文新课程改革浪潮的推动下,李希贵先生在2006年提出“语文主题学习”的教学方式,实验把学生自主阅读和大量阅读摆在语文课的首位,学生用1/3的课堂时间学完教材,其余2/3的课堂时间在教师的指导下自主、自由地阅读配套的“语文主题学习”丛书,三年时间内完成600万字的阅读量。这打破了传统的教育观念,目前全国已有6000多所学校参与了这项实验,取得了丰硕的成果,引起多方的兴趣和关注。石家庄石门实验学校
朗读教学是语文教学的重要组成部分,有效开展朗读是帮助初中生学好语文的关键方法,也是教师进行语文教学的基本手段。义务教育语文课程标准也明确提出了对初中生朗读能力应达到的要求。朗读教学不仅可以陶冶师生情操,还可以提高师生审美情趣。重要的是,朗读能够激发学生的阅读兴趣,培养学生的语感,增强学生的听说与写作能力,提高学生的语文核心素养。近年来,全国在实施统编教材后,各地各学校越来越重视朗读教学,各学校各种