基于Spark框架的并行林业文本分类算法的研究与实现

来源 :北京林业大学 | 被引量 : 0次 | 上传用户:whoamiwh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,“互联网+”技术与林业领域逐渐融合,林业文本经历小型数据、数据扩展以及数据爆发三个阶段,表现出量级大、难以整合的特性。完成海量林业文本的高效分类,能为以林业文本为主体的相关研究包括林业知识图谱的构建、林业信息的主题推荐算法研究、林业信息的舆情分析等提供科学的技术支持与理论依据。然而,通过相关文献的调研可知,林业文本分类的相关研究进程与当前的林业文本领域需求是不相符的,其不足主要表现在两个方面:1)现存分类体系中的分类标签设定不科学、分类算法多基于小批量数据训练,导致分类模型的实际应用能力差;2)分类算法多基于单机环境实现,未考虑算法并行性,导致算法执行效率低,缺乏应对实际的大规模数据分类场景的能力。因此,通过采集更加丰富的林业语料,基于Spark大数据计算平台设计并行林业文本分类算法,以数据和任务的并行化来提高分类的执行效率具有现实性和紧迫性。本文拟将大数据分析技术与林业文本分析相结合,研究以往的林业文本分类标签并进行改进,结合互联网中的林业文本特性,增加分类粒度;并基于Spark计算框架实现XGBoost并行化算法,采用并行化的三种机器学习算法(逻辑回归、支持向量机以及决策树)进行对比实验,分别使用TF-IDF与Word2vec进行特征权重计算,从而进行8种算法组合实验,最后得出一套实用性较强的海量林业文本分类系统。实验结果表明:1)XGBoost与TF-IDF的组合方式的分类性能显著优于其他七种并行分类的组合算法;2)各算法在TF-IDF算法下的执行效率与精准度多优于Word2vec情形,说明目前在互联网中的涉林信息文本通过TF-IDF算法得到的词向量中包含的特征更能代表林业文本的特点;3)该XGBoost算法基于Spark的执行性能优于单机版本,更能有效应对海量林业文本的实时、准确分类。
其他文献
天然林资源保护工程和退耕还林工程的监测与评价对于监督工程落实情况和调整相关林业政策具有重要意义。本研究选取重庆市云阳县为示范区,结合高分一号卫星和高分二号卫星遥感数据,开展对林业生态工程区森林植被恢复监测的技术攻关,通过遥感影像特征提取、OTSU阈值分割和面向对象分类等方法,研发天然林资源保护工程区和退耕还林工程区造林地块识别、造林成林提取、森林类型提取、森林分布变化提取、天然林变化提取算法模型,
通过理论分析对比曲线梁桥与直线梁桥在计算中承受荷载的主要不同点、分析计算中应主要注意的事项.列举实例,建立空间模型分析计算预应力钢束对支座的支反力影响大小.针对现
再生水回用于循环冷却系统是解决我国水资源短缺的重要途经之一。与自然水体相比,再生水中营养物质充足,加之循环冷却系统内水温适中,pH值中性,供氧充足,光照充分,为微生物的
我国高速铁路的快速发展为其安全运营带来了一系列的技术挑战,其中,弓网之间受流质量的恶化成为限制列车运行速度提升和影响运营安全的重要因素之一。一方面,由于接触网具有
十八大报告提出:“必须更加自觉地把全面协调可持续发展作为深入贯彻落实科学发展观的基本要求,全面落实经济建设、政治建设、文化建设、社会建设、生态文明建设五位一体总体布局”。生态文明建设以营造良好环境、大力提升生态意识文明为基础,以转变发展方式、建立生态行为文明为根本途径,以健全环境法制体系、完善生态制度文明为保障,形成全社会共同推进的整体合力。文明与教育是紧密联系在一起的。教育是传播文明的有效形式,
本文主旨是从宋代经典绘画作品《百花图卷》的艺术特点,阐述其对我的工笔花鸟画创作的影响和启示。结合《百花图卷》当时的时代背景,以及《百花图卷》整体清幽雅致,清新脱俗
2018年财政部、发改委等部门先后出台50号和87号文,提出关注地方政府“隐性负债”风险问题。2019年政府工作报告中也提出“稳妥处理地方政府债务风险”,这说明三大攻坚战之首的“防范化解重大风险”将仍然是2019年的工作重点,即防范化解地方政府隐性债务风险。因此,在供给侧结构性改革背景之下,深入分析地方政府隐性债务风险具有深刻意义。对比2017-2019年政府工作报告中发现,2017和2018年对
完善的电网总体投资效益评价不仅能对电网规划和投资决策起到重要的指导作用,且有利于电网企业的可持续发展。根据电网投资的实际工作,考虑影响电网供电能力的显性和隐性效益
“双一流”建设作为国家战略,如何对世界一流学科进行评价发挥着重要影响。评价标准作为学科评价的核心要素,是探究不同学科评价的关键。本研究根据托尼·比彻的学科差异理论