微博数据处理的相关技术研究

来源 :兰州理工大学 | 被引量 : 1次 | 上传用户:zxh1372226
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博作为一种流行的信息交流平台,已经受到人们的广泛关注。为了增加微博数据的可读性,方便用户阅览微博消息,有关微博数据处理的研究也已经成为热点。不同于传统文本数据,微博消息文本有140字上限并且可以通过转发迅速传播,所以在处理微博数据时,往往需要以微博特有的性质改善微博消息文本长度较短的问题。微博聚类作为一种微博数据处理方法,其目的在于将不同主题类别的微博消息进行划分,使相同主题类别的微博消息汇聚到一起,便于读者寻找与自己兴趣相关的主题类别的微博。而微博聚类算法也已经有一些研究成果,其中改进的Single-pass聚类算法以LDA主题模型为文档表示模型,在传统的Single-pass聚类算法中加入话题中心与批量处理的思想,对微博消息集合进行聚类。本文提出的基于转发关系树的Single-pass微博聚类算法,在改进的Single-pass聚类算法中引入微博消息之间转发关系作为划分主题类型的影响因子,并以实验数据证明,通过利用转发关系,达到了提高聚类效果的目的。微博摘要,其主要目的是通过在微博数据中抽取摘要,使用户能够在海量的微博数据中迅速获取其所需信息。现有的微博摘要方法很多来自于传统的文本摘要方法,而在文本摘要问题中,对比文本摘要作为文本摘要的一种应用被提出,其目的是为新闻、产品等描述文档生成具有对比性质的摘要。在此基础上,推特对比话题摘要算法已经作为对比文本摘要在微博上的一种应用被提出。本文提出的基于话题集合的中文微博对比话题摘要生成算法,不同于推特对比话题摘要算法,是将话题集合进行对比并生成微博对比话题摘要。实验数据表明以话题集合为单位生成对比话题摘要可以改善单条微博消息信息量不足的缺点,提高了对比话题摘要的代表性。
其他文献
车牌定位的好坏直接关系到车牌识别系统识别率的高低,并且对识别速度也有很大的影响。提高车牌识别系统的效率和实时性的关键在于能否实现车牌的快速准确定位。另一方面,半导
定性空间推理结合了定性推理、空间推理与人工智能,它已经成为人工智能领域的一个研究热点。定性空间推理研究人类对几何空间中的空间对象及其关系定性认知常识的表示与处理
如今,计算机动画技术迅速发展,不仅在传统的动画领域以及游戏产业得到应用,越来越多的影视作品也依赖于计算机动画实现普通拍摄方法难以达到的效果。这也反过来进一步加速了
使用控制模型(UCON)作为下一代的访问控制在近年来被提出,它不仅包含了传统的访问控制技术,同时还涉及到了信任管理问题和数字版权管理问题的领域,也是近年来计算机信息安全领域的
目的 评价蒲元和胃胶囊治疗胃疡病(肝胃不和证)的疗效.方法 将120例患者按随机法分为2组,给予蒲元和胃胶囊治疗的为治疗组(60例),给予西药(泮托拉唑)治疗的为对照组(60例),疗
随着社会和信息网络的发展,自然语言处理变得越来越重要。完全句法分析是自然语言处理的一个重点和难点,于是人们提出一种浅层句法分析来降低完全句法分析的难度。组块识别作
基于Ad Hoc网络与P2P系统的特点,人们希望能够在Ad Hoc网络的基础上配置和开发新的P2P应用系统。山于Ad Hoc网络的特点,移动节点间的协作显得非常重要,而移动节点间的协作常
现如今,互联网的快速发展改变了传统信息交流方式,网络上积累了丰富的房产相关信息,如价格信息、房产新闻、房产企业、市场动态等,房产搜索引擎通过主题爬虫技术为用户提供既