基于Spark的话题检测与跟踪技术研究

来源 :电子科技大学 | 被引量 : 8次 | 上传用户:andrew142
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展和普及,全世界每天都会产生大量的网络信息,为了能够从繁复的网络信息中及时获取热门话题信息及话题的后续发展趋势,话题检测与跟踪技术被提出用于对海量互联网信息中的未知话题进行识别和对已知话题进行持续跟踪。但是随着网络数据的爆炸式增长,传统的话题检测与跟踪技术在面对大规模数据时出现了性能瓶颈。为了提高话题检测与跟踪技术在面对大规模数据时的准确性和效率,本论文研究基于Spark大数据处理平台的并行化话题检测与跟踪方法。本论文的主要内容如下:(1)提出基于单遍聚类算法的并行化话题检测方法。该方法分为文本表示和文本聚类两个主要步骤。文本表示方面,针对文本向量化的特性进行并行化设计,提出使用稀疏向量进行文本特征表示来减少内存占用和计算开销,使用基于位置的特征权重来凸显文本主题信息。文本聚类方面,首先将传统单遍聚类算法的文本相似度计算进行尺度变换改进来改善聚类效果,再将改进后的该算法进行并行化设计以提高计算效率。结合文本表示和文本聚类的改进,给出了并行化话题检测方法的计算流程和基于Spark平台的计算步骤。通过对人工标注数据和各类大规模数据进行实验,验证了该方法具有良好的准确性和并行化性能。(2)提出基于频繁词集的并行化话题跟踪方法。该方法首先将待追踪数据通过本论文提出的并行化话题检测方法进行聚类得到话题文本集,然后使用频繁模式增长算法挖掘各话题文本集的频繁词集来表示话题,再与已有数据进行相似度比较确定待追踪数据的话题归属。该方法利用词集来表示话题中的多个文本可以大大减少相似度计算开销,提出基于EMD(Earth Mover’s Distance)和Word2vec词向量模型的余弦相似度计算方法可以提高词集间相似度比较的准确性。本论文基于Spark平台实现了该话题跟踪方法,通过在相关语料上进行测试,验证了该方法可以准确且高效地进行话题跟踪。
其他文献
目的 :探讨驱虫斑鸠菊体外对酪氨酸酶活性影响 ,以及对小鼠B - 16黑素瘤细胞株细胞增殖、黑素合成以及细胞内酪氨酸酶的作用。方法 :利用四甲基偶氮唑蓝 (MTT)比色法测定药物
<正>教学内容:苏教版九年义务教育六年制小学数学第八册第46~49页例题"、试一试"和"想想做做"。教学目标:1.使学生在具体的活动中认识梯形,知道它的基本特征,能正确判断梯形;
文章用数学模型推理论证了需求偏好相似理论适用于所有收入水平相似国家之间的贸易,从而将需求偏好相似理论的应用拓展到了发展中国家之间的贸易,并进一步用中国的对外贸易数
服务外包具有不完全性、质量控制的非标准性、知识生产性以及ITO和BPO捆绑和KPO规模扩大趋势,使得在承接服务外包过程中,承包商更容易在与发包商密切的交流中加快知识积累,提
随着人们对环境保护日益重视,国内外风电产业呈现出高速发展态势。由于国内风电产业起步较晚,产业发展虽然快速但非常粗放,风电装备制造、风电场运营等诸多方面的产业成熟度
中国近代社会法治建设的道路异乎曲折,颁行法律条例诸多,但成效甚微。究其原因是中国处于半殖民地半封建社会,深受封建主义、官僚主义、帝国主义三重压迫,专制独裁思想横行,法律制
<正> 随着生活节奏的加快及工业、交通意外的增加,人们所受的伤害也越来越多,而肩关节作为人体活动范围最大的关节,肩负着日常提物、运动等工作,肩及上肢极易意外损伤,而肩及
欧债危机增加了欧盟能源-气候战略面临的挑战和实施难度。当前欧盟围绕2030气候-能源框架的辩论表明,欧盟气候-能源战略在向能源-气候战略调整,经济竞争力与能源安全供应成为
本文先说明了经济学为什么研究机会成本,然后阐述了机会成本的内涵,进而研究了其在经营决策中的应用。
两次选举后的俄罗斯呈现出四类危机的诸多征候。民众信任危机的背后是中产阶级的危机,而这与国家发展危机具有密切的关联性。追根溯源,在民众信任危机、中产阶级危机和国家发