【摘 要】
:
为提高不均衡文本分类的准确率和稳定性,提出了一种基于类别加权和方差统计的联合特征选择方法.首先,基于类别文档数大小对特征选择的影响,给出了一种类别加权策略以强化小类
【机 构】
:
北京工业大学计算机学院多媒体与智能软件技术北京市重点实验室,北京市科学技术情报研究所
【基金项目】
:
国家自然科学基金资助项目(61375059)
论文部分内容阅读
为提高不均衡文本分类的准确率和稳定性,提出了一种基于类别加权和方差统计的联合特征选择方法.首先,基于类别文档数大小对特征选择的影响,给出了一种类别加权策略以强化小类别的特征;其次,在探究特征类别区分能力的基础上,设计了类别方差统计策略来凸显含有丰富类别信息的特征;最后,将2种策略相融合,实现了一种联合特征选择的新算法.在Reuters-21578和复旦大学语料这2个不均衡语料上的实验都表明:该算法有效,特别是在小类别的分类效果上远远好于IG、CHI和DFICF等流行的通用算法.
其他文献
随着我国汽车、摩托车工业,航空、航天事业的飞速发展,发动机凸轮轴自动化加工水平的不断提高,传统的光学机械量仪以及采用人工数据处理的方法已不能适应高精度、高效率地测量凸
智慧城市建设是打造数字政府的重要抓手,也是加速推进我国城镇化发展的必由之路。在我国,智慧城市建设经历了十余年的发展,取得了显著成效,但在信息安全方面仍存在一些问题,需要从加强智慧城市信息安全顶层设计、构建智慧城市信息安全框架体系、完善智慧城市信息安全评估机制、健全智慧城市信息安全法律法规等方面进行优化完善。
针对岩体边坡关键块体的状态(关键与否)与其几何参数和力学参数之间存在高度的非线性映射关系,利用人工神经网络理论的强大非线性映射能力和自学习特性,提出了岩体边坡关键块体
城市群是中国新型城镇化的重要载体,是重要的地域空间单元,对区域协调发展和国家有效治理起着重要的作用。然而,以往实践和研究中过于聚焦在城市、区县、社区和村庄等治理单
以高中阶段知识为基础,简述了扫描电子显微镜、透射电子显微镜等电镜技术的发展和基本原理,并以实际应用案例介绍了电镜技术在纳米科学领域的应用,最后给出了电镜技术的未来
法国经济部工业研究和统计处(Sessi)刚刚公布的有关法国建筑业建材市场的调研结果显示,尽管国际上,建筑及公共工程市场持续稳步发展,但建筑材料的生产和供应一般都由大企业集团垄