【摘 要】
:
近几年,新浪微博已经从流行转变到主流再转变到家喻户晓,它改变着我们线上线下的生活方式,甚至取代传统媒体成为我们发布和获取信息的主要渠道。虽然微博信息是碎片化的、零
论文部分内容阅读
近几年,新浪微博已经从流行转变到主流再转变到家喻户晓,它改变着我们线上线下的生活方式,甚至取代传统媒体成为我们发布和获取信息的主要渠道。虽然微博信息是碎片化的、零散的,但当大量的微博在讨论同一个话题时,这些零散的信息碎片就能聚合起来,迅速传播话题信息,让话题成为焦点,从而产生了一种新型的话语权。由于新浪微博的流行,以及热门话题的影响力,对微博话题未来流行趋势预测蕴含着巨大商机,成为市场营销和社会舆情监督的重要课题。目前对微博话题的预测研究主要基于信息流的时间序列、意见领袖的参与度和微博网络拓扑结构。本文基于上述研究成果对话题流行度的影响因素进行了总结,提出一种将预测看作是对话题多元特征分类的方法,对微博话题流行趋势进行预测。本文利用五种最常用的分类模型(朴素贝叶斯、k-最近邻,决策树,逻辑斯蒂回归和支持向量机)来做预测,故研究的主要任务是用有效的特征向量来描述微博话题。本文首先对新浪微博热门话题的影响因素进行分析,对热门微博传播路径可视化后发现微博早期流行度,用户影响力和话题自带属性是推动话题流行的重要因素。根据这些影响因素分别从早期传播动态、用户影响力和话题内容三个方面抽取特征,构造了三个相互补充的特征子集。本文基于新浪微博平台采集了2166个话题,近162.5万条微博数据,对预测模型进行试验分析。结果显示,利用分类模型输入特征集合进行预测的结果比输入特征子集的结果要更准确。在五种分类模型中,决策树C4.5的F度量结果要优于其他四个分类模型。论文首先介绍了新浪微博的迅猛发展和受欢迎的原因,并对国内外相关研究的成果和方向做了述评;第二章介绍了微博的相关理论和分类预测技术;第三章主要论述了影响微博话题流行度的因素;在第四章中对微博相关概念做了形式化定义,详细的给出了特征向量的计算方法,提出了新浪微博话题热度预测模型的框架和流程;第五章主要对论文提出的模型做验证,并详细介绍了新浪微博数据爬取和预处理的具体流程。在最后一章,对论文的主要工作和创新点进行了总结,并提出研究的改进方向。
其他文献
[目的/意义]对我国图书馆学调查研究方法运用的微观过程及其具体的技术环节进行考察。[方法/过程]根据社会研究过程的ABCDE模型构建图书馆学调查研究方法运用的微观分析框架,
[目的/意义]数字环境下,需全面反思信息检索课的经验和教训,重新认识和定位信息检索课的教学目标,并探索适合的案例教学方法和模式,继续推动和深化高校信息检索课的改革。[方
[目的/意义]目前,国内高等财经院校分布于全国各地,其数字资源建设在很大程度上受到当地政治、经济和文化发展水平的影响,导致数字资源建设不均衡。通过对国内45所高等财经院
随着互联网在全球范围内的飞速发展,互联网已成为反映社会舆情的主要载体之一。在这种环境下,BBS论坛也已进化成网络舆论的策源地和集散地,BBS在国内高校也已是大学生最常使用的
[目的/意义]知识转移是技术创新联盟研究领域中的热点之一.已有研究多习惯于将联盟主体同一化,然而现实的联盟成员之间具有差异性.这种差异性在知识转移策略上表现得尤为突出
学术期刊的跨学科评价,是国内外研究的热点和难点。目前,学术期刊跨学科评价指标主要有期刊分区(journal Quarti,JIF Quarti)、期刊影响因子百分位(journal impact factor percenti
[目的/意义]借助引文分析与其他文献计量学研究方法对特定领域的“研究前沿”进行分析,是目前情报学研究的重要课题。但是中文“研究前沿”实际对应于Research Front与Resear
精品课程建设是高等学校教学质量与教学改革工程的重要组成部分。教育部十分重视该项工作,自2003年起,教育部启动了国家精品课程建设工程,通过持续的经费支持及政策引导,全国建立
[目的/意义]结合数据起源的内容和长期保存特点,全面研究和分析数据起源在长期保存中的应用,为长期保存系统组织管理起源提供参考。[方法/过程]分析长期保存领域中相关标准如
[目的/意义]调研分析国外图像特征研究的进展与发现,总结图像特征体系的特点以及相关用户使用行为,为改进和优化图像标引和检索提供参考借鉴。[方法/过程]系统回顾国外图像特征的相关研究,分析现有图像描述和著录规范、图像特征的分类与分层研究以及标引与检索情境下用户对图像特征的使用行为及影响因素等研究。[结果/结论]国外图像特征研究内容较为全面和系统,研究视角涵盖以图像为中心和以用户为中心,研究方法涉及日