分布式话题检测方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:hj418057259
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会化媒体的兴起,人们可以更频繁更便捷的与互联网互动,互联网的资源呈现爆炸式增长。丰富的互联网资源带给人们便捷的社交资源的同时也给人们带来信息冗余的困扰,为了解决以上问题本文进行了分布式话题检测方法研究,在提高话题检测准确率以及提高话题检测速度两方面展开研究。本文主要研究成果包括:首先,开展前期调研,研究了话题检测的起源、相关算法,实现原始Single-Pass话题检测算法,并进行相关研究。其次,由于进行Single-Pass话题检测以后算法能够得到比较高的精度,但是召回率比较低,提出二次检测(Double-Pass)话题检测算法,第一次检测以后再用Single-Pass算法对第一次检测的结果做二次检测,用第一次检测的结果指导二次检测,对某些簇合并,实验证明二次检测可以让算法的准确度有所提高。接着,为了进一步让簇信息加强,把前人运用于分类的CFC(Class FeatureCentroid)思想运用到话题检测中,在第一次检测以后用CFC思想调整簇权重,提出了CFC-DP算法,实验证明,改进后的算法较原始算法F值有所提高。再次,为了提高话题检测的速度,满足处理海量数据的需求,在Hadoop这一分布式框架上进行分布式计算,定义话题检测的任务分解以及合并操作,提出了基于Hadoop的分布式话题检测方法,实验证明,该分布式话题检测能维持稳定的话题检测精度、召回率及F值,并加速检测速度。最后,基于以上的研究,设计并实现了分布式话题检测系统,系统包括五个模块,分别是:数据读取前端、数据预处理、话题检测、分布式处理、话题保存于展示。
其他文献
粒子群优化算法是一种基于群体搜索的智能优化算法,是一种以数学为基础,应用于求解各种组合优化问题的新型技术。近十几年来,粒子群算法受到越来越多学者的关注。由于算法设置参
井喷式增长的新闻网页造成大量新闻资源堆积在互联网上,由于这些新闻资源的异构性和缺乏统一的规范,无法使用传统的数据库技术进行处理,导致这些聚集在互联网上的新闻资源只
学位
宽带光纤无线(ROF, Radio over Fiber)技术利用光纤链路传输高频率无线信号,融合了光纤通信的高容量、低损耗和无线通信的高效灵活性等优势,受到了广泛的研究。同时正交频分复用(O
传统节日作为非物质文化遗产的重要部分,是人类非常宝贵的精神文化财富。随着社会节奏的不断加快,在全球化和现代化进程中,传统节日习俗在保护和传承中遇到了许多的问题,保护
民航的快速发展对经济和社会发展发挥着巨大的推动作用,但是航空器噪声污染问题严重影响民航的可持续发展。物联网技术的应用与发展为机场噪声细粒度的监测提供了可能。随着民
近年来,三维场景重建的研究越来越得到重视,使得三维数字地图等技术获得了蓬勃发展。三维场景重建是当今计算机视觉研究中备受关注的研究方向。随着深度相机的普及,基于深度
面向服务架构因其松耦合、资源共享等特性可以很好的适应分布式,跨平台等要求,迅速在各个领域发展并实际应用起来。但是面向服务架构中的安全问题一直是阻碍其发展的重大问题,随
随着计算机软硬件技术和互联网的发展和普及,影视动画、游戏动漫、生物医学等3D产品的消费和使用,已成为普通大众生活和工作的一部分,立体取代平面、虚拟模拟现实的3D技术带领我
在维护过程中可以通过实施度量来收集、分析相关属性数据,规划当前的项目,增加项目控制的可视化程度;通过维护度量帮助人们认识和理解软件维护活动,定量的评价软件维护过程本