微博数据预处理及话题检测方法研究

被引量 : 0次 | 上传用户:terrychou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速发展,微博作为一种新的网络媒体形式,在人们获取信息、传递信息、检索信息等日常网络行为中扮演着越来越重要的角色。与传统媒体数据相比,微博文本简短,支持实时转发评论,并且话题传播速度快,这使得微博数据成为新的研究对象。微博话题检测技术是研究如何对大量的微博数据信息进行管理分类,已经成为当前微博研究的热点之一。本文从微博数据的采集、微博数据短文本预处理、微博话题检测方法三个方面进行研究。采集相关微博数据,并结合微博的文本简短性和结构化信息特征,在传统话题检测方法基础上,对微博数据预处理和微博话题检测方法进行了探讨。主要工作内容如下:基于微博开放API接口采集相关微博数据。在微博采集数据方面,介绍了网络爬虫技术和基于微博开放平台的微博数据获取方案。通过数据获取实验分析两种数据采集方法的优缺点,表明微博开放平台获取数据方法更好。所以,采用通过程序调用微博API接口获取本文的实验数据。针对微博短文本,提出一种新的基于多语言翻译的文本特征扩展方法。在微博数据短文本预处理方面,提出了一种有效的扩充数据特征表示方法,即通过翻译机器的多种语言表达增加文本特征数量。我们从其他语言中获得的额外知识丰富简短文本特征,然后利用矩阵分解技术进行短文本整合和维数约减,这在一定程度上解决了短文本挖掘中存在的问题。改进单增量聚类算法用于微博话题检测。在传统话题检测方法的基础上,结合微博文本简短的特点和微博结构化信息的特征,对单增量聚类算法进行了改进。采用相似度最大阈值和最小阈值策略,并利用微博文本间转发评论关系和微博用户间好友关系,提出MB-SinglePass微博话题检测算法。实验证明该算法检测效果更佳。
其他文献
目的 比较人的血液和尿液样本中HIV - 1抗体的一致性。方法 在广东省两所劳动教养所收集 346名HIV高危者的血液和尿液样本 ,分别用血液和尿液ELISA初筛试剂检测HIV - 1抗体
关于中国农村金融发展如何促进农村经济增长的问题,无论从中央层面还是从地方层面,无论从学术研究者还是从实务工作者,都存在重大的争论和分歧。这个问题的存在,严重影响了农
目的研究2005—2013年河北省即食食品中单增李斯特菌污染状况及耐药特征。方法单增李斯特菌检验参照(GB/T 4789.30),药物敏感性试验应用微量肉汤稀释法,对15种抗生素进行耐药
目前教育改革正在如火如荼地进行,新理念与新目标为生物课程的教学打开了新的一页,各个中学都加大了对生物科目教学的重视。对生物教师的专业知识以及专业素质有了更高的要求,说
<正> 大量的调查表明,在高三学生中甚至其它年级都存在着一定比例的有心理健康问题的学生,这种比例近年来大有逐年提高的趋势。 心理焦虑症是一种恐惧和不安的、不愉快的情绪
<正> 一、切实重视基础知识、基本技能和基本方法 众所周知,近年来高考数学试题的新颖性、灵活性越来越强,尤其突出能力的考查。目前,不少师生把主要精力放在难度较大的综合
在高三动量专题复习中,笔者将2016年10月份浙江物理选考第23题以课后作业的形式让学生练习,并对作业结果进行分析,发现班级大部分学生没能较好地运用平均思想解决问题,导致了较为
中共驻共产国际代表团在法国巴黎出版发行的《救国时报》对开4版,开始时每月出版4期,主笔吴玉章.该报是中国共产党在国外从事抗日宣传的机关报.以宣传党的抗日民族统一战线为
张爱玲擅长以三角恋爱模式处理都市男女的情感纠葛。在《十八春》中,她构建了多层次的三角恋爱关系,使其成为小说的核心结构,让叙事获得了繁复化、简约化和凡俗化的特征,并在