基于词对伪文档的短文本主题模型研究

来源 :南京大学 | 被引量 : 0次 | 上传用户：bitgxd

【摘要】

：

随着信息技术的不断发展,人们每天都会面对超过自身接受范围的信息量。因此对文本进行主题分类,并为人们推送特定的信息就成了一个热门的研究议题。众多在线社交平台和在线新

【作者】

：

蒋澜

【机构】

：

南京大学

【出处】

：

南京大学

【发表日期】

：

2016年期

【关键词】

：

主题模型主题聚类机器学习短文本文本分析

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息技术的不断发展,人们每天都会面对超过自身接受范围的信息量。因此对文本进行主题分类,并为人们推送特定的信息就成了一个热门的研究议题。众多在线社交平台和在线新闻媒体出现在人们的生活之中,包括微博、新闻门户、在线问答网站等。从这些网络平台和媒体上人们可以获取各种短文本形式的文本数据,绝大多数的数据都是没有类别的,因此短文本的主题自动聚类研究有非常广阔的应用前景。理解这些短文本数据内潜在的主题结构是非常重要的。本文的工作围绕短文本数据集上的主题聚类问题展开研究。针对短文本数据集的稀疏性问题,基于共现词语能够体现更多语义信息的思想,本文提出了一个基于词共现网络的词对伪文档主题模型(BPDTM)。本文在新闻标题和知乎问题标题数据集上进行主题聚合度、文本聚类和文本分类的实验。实验结果表明BPDTM模型表现优于LDA和BTM模型,这证明了BPDTM模型在短文本主题聚类问题上是有效的。本文的主要工作有：1) 定义了词共现网络中的词对三角关系,并据此构造词对伪文档集。2) 基于词对伪文档集,提出了针对短文本数据集的词对伪文档主题模型。3) 提出了一种降低模型时间开销的方法,在保证了模型性能的基础上,显著减少模型运行时间。

其他文献

基于Browser/Server结构的数据库应用系统开发方法研究

　　本文首先阐述了Internet的发展对数据库技术的影响，简要的介绍了目前流行的Web开发工具，并进行比较。然后针对Browser/Server系统的主要问题和技术要点，概括了使用CGI开发一

学位

数据库应用系统网络数据库开发周期软件质量

在线社会网络上的影响最大化研究

病毒式营销被认为是最有效的营销方式之一，借助人与人之间的影响作用实现营销信息在消费者之间自发的扩散。随着信息技术的迅猛发展，大量在线社交网站和社会媒体网站涌现并成为

学位

影响最大化在线社会网络独立级联模型贪婪算法启发式算法迭代算法病毒式营销

稀疏与流形表示及其在人脸识别中的应用研究

学位

支持复杂关系查询的图存储系统及关键技术

学位

一种在线增量式时间序列学习网络研究

近几十年来，随着时间序列数据的飞速增加，以及数据挖掘技术在多个领域的广泛应用，时间序列数据的学习得到了越来越多的关注。这些时间序列数据不仅仅包含文本数据，更包含如图像、

学位

时间序列学习网络快速动态时间规整在线学习增量学习

基于语义重构的文本摘要算法

互联网技术的快速发展产生了数据爆炸和信息过载的问题,同时现代生活节奏的加快催生了用户快速阅读的需求,使得文本自动摘要技术成为了当今科学界的研究热点。相比其他自然语

学位

自动摘要语义重构词嵌入语义表示

分布式系统的研究与应用

该论文以"数据业务计算机综合服务管理系统"的设计和实现为基础,探讨了建立此类分布式系统的方法和模式,从多角度讨论了目前关于分布式处理的先进技术,提出了分布式应用系统

学位

分布式系统软件组件结构分布对象三层体系结构

WBM网络管理系统NETMISS设计

论文简单的介绍了WBM的原理及其分类,并结合作者设计的基于代理的WBM网络管理系统Netmiss及设计中的关键技术做了详尽的阐述.其中包括Netmiss原型系统SNMP通讯原语的设计实现

学位

Web管理模式网络管理

计算机网络协议及性能分析的研究

该文在阅读了大量有关文献的基础上,首先,对部线型网络和令牌环网这两种局域网的性能进行了分析和研究,得到了一些对局域网的规划和设计具有重要意义的结论:对总线型网络而言

学位

计算机网络性能分析TCP/IP协议网络管理协议

一种基于RFID的多标签识别防碰撞算法设计

无线射频识别(RFID)属于新近出现的先进的无线通信技术。能够利用非接触的工作方式实现远距离对待识别目标信号进行自动读写识别，信息读取速度快，存储量大，穿透性强，在工作中被广

学位

无线射频识别标签信息防碰撞算法时隙处理混合模式

基于词对伪文档的短文本主题模型研究

其他学术论文