实时社交媒体分析系统的设计与实现

被引量 : 0次 | 上传用户:d632709901
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着国际互联网络的进一步普及以及网络之上所承载的信息量的进一步丰富,互联网成为新的媒体已经是不争的事实,众多社交网站的访问量已不亚于传统媒体,以脸谱网和推特网为代表的社交网站已经成为了互联网信息传播的新势力,它们散发出的巨大能量使得传播领域出现了一个新的名词社交媒体。同时,由社交媒体产生的社交媒体数据也蕴含着巨大的信息。本文构建了一个以Twitter网站数据为基础,对用户的社交媒体数据进行统计分析的实时社交媒体分析系统。该分析系统以Twitter Storm流计算系统为平台,利用TwitterAPI和Python NLTK等技术,实现对社交媒体数据的关键字提取和情感分析等任务,为用户提供数据推荐。首先,根据系统的应用场景和需求定义确定技术方案,选择Twitter Storm流计算系统实现对社交媒体数据的快速处理,保证系统持续计算和实时性;并选择Python NLTK解决关键字抽取和情感分析任务。然后根据需求定义将系统划分为Twitter Streaming API适配模块、流计算和短文本分析模块、数据维护模块、网络结构分析模块、内容推送模块以及配置和日志模块,前五个模块主要用于实现系统功能目标,而配置和日志模块提高了系统的可用性。流计算和短文本分析模块包括Twitter Storm系统执行逻辑和PythonNLTK文本分析逻辑,利用Twitter Storm系统对流数据的处理优势实现对社交媒体流数据的快速处理,利用Python NLTK抽取Twitter数据的关键字,使用朴素贝叶斯分离器实现对社交媒体数据的情感分析,朴素贝叶斯分类器以其简单高效的计算模式和相对合理的计算结果,能够提高系统的计算质量和响应时间;网络结构分析模块利用节点相似度和Q值算法实现对用户群的社群划分工作,节点相似度计算利用矩阵运算得到所有节点的相似度拓扑序列,而Q值算法利用相似度计算结果分析得到相对合理的社群划分方案;系统配置利用Zookeeper提供的锁机制保证配置完整性。最后,进行模块和系统测试,对系统各个模块和整体工作效果进行功能测试和性能测试。测试结果表明各模块满足需求定义的要求,系统响应速度和运行效果满足设计目标。
其他文献
为了实现干燥箱温度控制系统满足温度控制均匀、操作简单及性能可靠的目的,设计了基于PLC和触摸屏的温度闭环控制系统。详细的介绍了系统的工作原理和组成,给出了系统的硬件
"相公"一词始见于曹魏,本文以时间为线,以史为纲,从训诂学的角度,运用排比归纳、文献与方言相对照的方法,考释了其语源和流变。
<正> 培养学生的实验技能和独立工作能力是普物实验课的一个主要目的,而组织好实验教学的四个环节和给予必要的误差知识是达到上述目的重要途径.下面根据我们的教学实践谈谈
过去几十年中,森林火灾对经济、社会和生态环境都造成了严重的影响,森林火灾已经引起了各国政府和科学家的关注。在全球尺度上,生物量的燃烧被认为是温室气体和气溶胶颗粒排放的
法律漏洞是指法律规定的不圆满性,它的存在具有必然性,这主要是由人类认识能力的局限性、法律的普遍性和稳定性与社会现象的特殊性和多变性之间的矛盾以及作为法律摘要载体和
非经济因素是指经济因素以外的其它各种因素。非经济因素不仅影响一国经济发展总量,而且影响其发展质量。当前影响我国经济发展比较突出的非经济因素主要有:道德法制因素、社
新闻精神是新闻传播活动的主体在新闻活动中持有的基本态度和基本观念,也是一种追求和信念。它是意识形态的结合,既体现在新闻实践活动中,又凝结在新闻作品里;并且在新闻业的发展
背景椎间盘(The intervertebral disc, IVD)由层状纤维环(annulus fibrosus, AF)包裹的髓核(nucleus pulposus, NP)构成。髓核中有大量的椎间盘相关基质蛋白,是由负电荷蛋白
本文通过对槟榔屿潮州会馆个案的深入研究,探讨新马华人同乡会馆在新马华社转变过程中的功能演变问题。文章选择槟榔屿潮州会馆的会议记录和收支账簿为主要研究对象,并结合会馆
钢筋—混凝土结构在服役过程中钢筋容易发生锈蚀,从而导致混凝土结构性能退化,结构安全性降低,甚至引起灾难性事故。轻质、高强与耐腐蚀的FRP复合材料应用于现代结构,被认为能够