基于词对伪文档的短文本主题模型研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:bitgxd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的不断发展,人们每天都会面对超过自身接受范围的信息量。因此对文本进行主题分类,并为人们推送特定的信息就成了一个热门的研究议题。众多在线社交平台和在线新闻媒体出现在人们的生活之中,包括微博、新闻门户、在线问答网站等。从这些网络平台和媒体上人们可以获取各种短文本形式的文本数据,绝大多数的数据都是没有类别的,因此短文本的主题自动聚类研究有非常广阔的应用前景。理解这些短文本数据内潜在的主题结构是非常重要的。本文的工作围绕短文本数据集上的主题聚类问题展开研究。针对短文本数据集的稀疏性问题,基于共现词语能够体现更多语义信息的思想,本文提出了一个基于词共现网络的词对伪文档主题模型(BPDTM)。本文在新闻标题和知乎问题标题数据集上进行主题聚合度、文本聚类和文本分类的实验。实验结果表明BPDTM模型表现优于LDA和BTM模型,这证明了BPDTM模型在短文本主题聚类问题上是有效的。本文的主要工作有:1) 定义了词共现网络中的词对三角关系,并据此构造词对伪文档集。2) 基于词对伪文档集,提出了针对短文本数据集的词对伪文档主题模型。3) 提出了一种降低模型时间开销的方法,在保证了模型性能的基础上,显著减少模型运行时间。
其他文献
  本文首先阐述了Internet的发展对数据库技术的影响,简要的介绍了目前流行的Web开发工具,并进行比较。然后针对Browser/Server系统的主要问题和技术要点,概括了使用CGI开发一
互联网技术的快速发展产生了数据爆炸和信息过载的问题,同时现代生活节奏的加快催生了用户快速阅读的需求,使得文本自动摘要技术成为了当今科学界的研究热点。相比其他自然语
该论文以"数据业务计算机综合服务管理系统"的设计和实现为基础,探讨了建立此类分布式系统的方法和模式,从多角度讨论了目前关于分布式处理的先进技术,提出了分布式应用系统
论文简单的介绍了WBM的原理及其分类,并结合作者设计的基于代理的WBM网络管理系统Netmiss及设计中的关键技术做了详尽的阐述.其中包括Netmiss原型系统SNMP通讯原语的设计实现
该文在阅读了大量有关文献的基础上,首先,对部线型网络和令牌环网这两种局域网的性能进行了分析和研究,得到了一些对局域网的规划和设计具有重要意义的结论:对总线型网络而言