【摘 要】
:
针对传统随机森林算法对文本特征提取质量不高导致分类效果差的问题,提出一种对图书等大数据量文本信息文本的改进的随机森林算法。又由于传统随机森林决策树质量难以保证,提
【基金项目】
:
北京市科技创新服务能力协同创新项目(PXM2016_014223_000025)
论文部分内容阅读
针对传统随机森林算法对文本特征提取质量不高导致分类效果差的问题,提出一种对图书等大数据量文本信息文本的改进的随机森林算法。又由于传统随机森林决策树质量难以保证,提出一种加权投票提高决策树质量的机制。算法主要由两方面组成,一方面是基于文本主题特征提取的Tr-K方法,目的是提高文本主题特征的质量与代表性;另一方面是基于bootstrap抽样时遗留的1/3袋外数据提出的验证机制。文中采用的是20 Newsgroups数据集和来自于搜狗实验室提供的中文分类语料库,中英文两种数据集充分考虑了该模型的泛化性,并在实验
其他文献
内部标杆管理是以医院内部最优秀科室和员工为基准的标杆管理。2015年7月我院启动三级甲等综合医院复审准备工作,为实现在一年的时间一次性通过上级卫生行政主管部门的评审,
本文在基本词汇的范围内,尽可能多的找出了418个有严格语音对应的台佤关系词,同时讨论了确定关系词严格语音对应的完全对应原则。然后从所比较的台语本身入手,提出并表述了相对有阶
常言道:"工欲善其事,必先利其器",专业的竞技健美操运动员必须要经过至少两年的系统训练,才能达到其专业健美操运动员所需的身体能力,竞技健美操总体分为A、B、C、D四组难度,
目的 探讨几种细胞因子在不同亚型幼年特发性关节炎(JIA)中的表达及意义.方法 选取2016年1月至2017年12月在西安市儿童医院风湿免疫科住院的73例JIA活动期患儿,其中全身型JIA
针对黑龙江玉米生产现状,通过对深松技术、秸秆还田技术、地膜覆盖技术和常规耕作技术模式的比较研究,探讨了玉米栽培技术对土壤物理性状及产量的影响。结果表明:在土壤含水量方
为推动哈尔滨市农业现代化进程,对哈尔滨市农业现代化发展中存在的耕地可持续生产能力下降、农业投入不足、产业结构层次低、产业链短、资源耗用量大和环境污染等问题进行了
叠合盆地深埋碳酸盐岩优质储层的形成和保存机理是一个复杂而又有争议的议题。大量的地质地球化学证据表明,四川盆地北缘灯影组深埋白云岩在灯四段和灯二段末期先后发生了两
<正>国家民委制定出台的《少数民族特色村寨保护与发展规划纲要(2011-2015年)》,对保护民族建筑文化进行了专门规划,强调在开展少数民族特色村寨保护与发展工作中,要重点推进