基于主题模型的微博话题挖掘

被引量 : 35次 | 上传用户：LIZHAOAA

【摘要】

：

随着微博用户的不断增长,国外的Twitter和国内的新浪微博已经成为媒体和个人发布信息的重要平台。对于微博这种特殊的文本,通常小于140字,包含了丰富的社会化信息,且微博内容

【作者】

：

汪进祥

【发表日期】

：

2015年01期

【关键词】

：

主题模型话题检测词性标注短文本 single-pass聚类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着微博用户的不断增长,国外的Twitter和国内的新浪微博已经成为媒体和个人发布信息的重要平台。对于微博这种特殊的文本,通常小于140字,包含了丰富的社会化信息,且微博内容不仅包含话题文本,也包含其他无话题表征能力的冗余文本,传统的文本挖掘算法并不能很好的做微博话题的提取。本文结合中文词性标注和LDA(Latent Dirichlet Allocation)主题模型两种方法用于微博话题提取,使用增量聚类方法确定微博话题个数和微博聚类,运用中文词性标注可以很好的过滤掉微博文本中无话题表征能力的文本词语,运用LDA主题模型可以将文本信息表示在一个低维的主题空间之中,从语义上更好的挖掘微博话题。使用增量聚类方法可以有效的发现微博话题个数,无需预先在聚类方法中指定话题个数。实验表明相较于传统的文本分析分析方法,中文词性标注,LDA主题模型和增量聚类三者相结合能够提高话题发现的准确率本文主要完成了以下几项工作：(1)分析基于传统文本模型进行话题提取的方法,实验结果指出基于传统文本模型优势和不足。提出基于LDA主题模型进行微博话题检测和提取的方法。(2)基于LDA主题模型进行微博话题检测的过程中,发现文本预处理对于微博话题提取来说,至关重要。大量的微博中包含大量与话题无关的成分,干扰微博话题提取。提出在基于LDA主题模型进行微博话取与中文词性标注进行结合,可以有效的提高话题提取的精度和准确性。并且进行实验证实中文词性标注有助于提高话题提取的准确性。(3)分析传统话题提取中使用的聚类方法需要指定特定的话题个数的不足,从而使用增量聚类的方法single-pass这一聚类方法进行话题聚类,并且在single-pass算法的基础上提出批处理的思想对single-pass算法进行改进。并且通过实验对比,指出改进后的single-pass聚类算法能够有效发现话题的数目。

其他文献

浅谈施工企业在工会工作的创新

本文结合施工企业实际,首先分析了当前施工企业工会工作存在的问题,并就施工企业工会工作创新问题进行了认真研究。

期刊

施工企业工会工作创新

孤独症患儿血清催产素水平与社交能力关系的研究

目的探讨孤独症儿童与健康儿童血清催产素水平差异及其与孤独症儿童社交能力的关系。方法选取3~5岁孤独症患儿25例与健康儿童20例分别接受血清催产素水平测量,采用社交反应量

期刊

孤独性障碍催产素儿童孤独症血清社交能力

当代中国老年人虐待问题研究

最近几年，不论是在新闻报道中，还是在网络热帖中，经常可以看到不孝子女、儿媳、养老机构工作人员等虐待老年人事件的发生，老年人的晚年生活和尊严无法得到保障。这些虐待老年人行

学位

老年人虐待老年人权益虐老防治

慢性胃炎的中医病机与证候研究现状

研究慢性胃炎的中医辨证分型现状。总结近年来有关慢性胃炎中医辨证分型的文献,从病因病机、证候分型、存在问题及展望方面进行分析总结。

期刊

慢性胃炎中医证候

玉米须多糖的降血糖作用研究

以玉米须多糖为原料,以小鼠为实验对象进行降血糖活性研究。通过一次性按200mg/kg剂量腹腔注射四氧嘧啶致小鼠实验性糖尿病后,灌胃低(100mg/kg·d)、中(200mg/kg·d)、高(400

期刊

玉米须多糖糖尿病降血糖

云南省哈尼族高血压患病情况调查分析

目的　了解云南省哈尼族高血压流行现状和和人群血压水平。方法　从 2 0 0 2 0 5 -2 0 0 3 0 5 ,按照全国 1991高血压抽样调查工作手册的要求 ,对云南红河州红河县 ,元阳县

期刊

高血压哈尼族流行病学

隔药灸脐法治疗寒湿型腰椎间盘突出症的临床观察

目的:对隔药灸脐法治疗寒湿型腰椎间盘突出症的治疗效果进行量化、客观化评定,以观察隔药灸脐法治疗寒湿型腰椎间盘突出症的疗效。方法:将确诊的寒湿型腰椎间盘突出症患者60

学位

腰椎间盘突出症隔药灸脐法临床观察

基于CAS单点登录的高校教务管理系统设计探讨

目前高校教学系统的认证机制大多是采用用户名和密码来进行登录,若用户需要访问不同系统中的资源,传统的认证机制必然会耗费大量的时间。因此在统一框架下,建立单点登录的安

期刊

单点登录CAS高校教务管理系统认证机制高校门户网站

足转筋辨治六法

目的观察中医辨证施治足转筋的临床效果。方法 2000年以来诊治106例足转筋患者,随机按辩证分型用滋补肝肾、祛寒除湿、补气养血、活血化瘀、疏肝解郁、行气补血六种方法治疗

期刊

足转筋辨证论治治则治法

商品评论中的属性词聚类和扩展研究

随着电子商务的迅速发展,互联网上出现了各式各样的商品评论信息。为了实现海量商品评论信息的自动化智能化分析,商品评论分析技术应运而生。由于商品的属性不仅影响到评论文

学位

商品属性词聚类同义词扩展APCWRAWE-Bootstrapping数据建设

基于主题模型的微博话题挖掘

其他学术论文