面向标记文本的主题建模关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：bestext

【摘要】

：

主题模型是近年来比较流行的数据挖掘方法，可以有效地提取文本或图像中潜在的语义结构信息，已经被广泛地应用于自然语言处理、社交网络分析、图像处理等领域。随着Web2.0时代的

【作者】

：

王文帅

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2017年期

【关键词】

：

文本处理标记加权主题模型结合词向量在线形式

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

主题模型是近年来比较流行的数据挖掘方法，可以有效地提取文本或图像中潜在的语义结构信息，已经被广泛地应用于自然语言处理、社交网络分析、图像处理等领域。随着Web2.0时代的到来，微博平台、问答社区等领域出现大量带标记的文本。用户自主添加的标记常常会有个人偏好差别，缺少权威性和准确性，同时有很多不带标记的文本需要与带有标记的文本一起分析;有些规模较小的文本集特征稀疏，特别是微博之类的短文本，本身信息量少，给语义分析带来困难;大规模文本数据流的处理面临计算机性能的瓶颈。针对这些挑战，本文对面向标记文本的主题建模关键技术进行了研究，主要工作和贡献包括:　　(1)提出标记加权主题模型LW-LDA。标记主题模型没有利用标记相关性、没有区分标记重要性、强制文本从自身标记所对应的主题范围内进行采样导致模型可扩展性不足。LW-LDA模型考虑文档标记相关性和标记出现频率等因素的影响，设计了文档标记权重计算方法，将标记权重融合到主题模型中，设置了全局共享标记并打破了强制从本文档标记涵盖的主题进行采样的假设，当文档没有标记信息时，可以从所有主题中采样，使模型既能够适应多标记文档又能适应无标记文档的建模。对模型参数进行了推导，实验结果表明，与已有模型相比，LW-LDA模型在文本聚类任务、模型泛化能力、主题可解释性等方面有更优秀的表现。　　(2)提出了结合词向量的标记加权主题模型WE-LWLDA。利用大规模外部语料训练出词向量，并作为先验知识进一步改进标记主题模型，在对标记主题进行吉布斯迭代采样的过程中，利用词向量优化主题向量，丰富文本的特征，提升模型的质量。实验结果表明，WE-LWLDA模型能够进一步提高建模的效果，将建模结果作为文本特征进行聚类分析时能够取得更高的聚类纯度，在主题一致性评价实验中，WE-LWLDA取得了更好的效果。　　(3)提出了两种在线形式的标记加权主题模型O-LWLDA和PF-LWLDA。静态的标记主题模型在处理大规模文本数据和流式文本数据时会受到限制。O-LWLDA把文档数据流划分到若干个时间片，每个时间片内的文档子集训练一个标记加权主题模型，根据历史时间片模型的结果来计算当前时间片模型的先验参数，每个时间片维护一个动态的词典，仅保留该时间片中文本的词语，以防止词典过度增长。PF-LWLDA可以在一篇新文档到来时就立即进行处理，更新模型参数，模型使用时间窗口机制来计算文档标记的权重，使用蓄水池抽样策略构造词语的再生序列进行重采样，防止模型退化。O-LWLDA适合于对文档划分时间片进行模型更新，PF-LWLDA适合于对文档流进行实时处理，通过实验验证了新模型的效果。

其他文献

半脆弱数字水印技术的研究

本文首先介绍了用于认证的数字水印系统的一般框架,对目前提出的用于认证的各种数字水印方案进行了分析,然后围绕用于认证的半脆弱水印技术做了以下几部分的工作:1、提出一种

学位

数字签名半脆弱水印内容认证篡改检测评价基准

基于攻击树的多层次入侵检测及其一个实现模型

第一章介绍了计算机安全、网络安全、入侵检测的一些基本概念及相关术语.第二章首先介绍了入侵检测的分类并详细介绍了各种异常入侵检测及基于特征的入侵检测方法,然后介绍了

学位

多层次入侵检测攻击树攻击说明语言Z语言形式化事前分析

一种基于Patchwork算法的音频水印研究

Patchwork算法是一种典型的空域水印嵌入方法.目前也有人尝试将这一办法应用于变换域中,但是有关文献很少.特别是在将其与音频水印应用相结合的研究还显得不够.Patchwork算法

学位

数字水印傅立叶变换假设检验Patchwork算法优良函数

基于DSP的馈线终端单元FTU的研制

该文在参考了各种馈线自动化方案后,阐述了自己对馈线自动化的理解,在比较和参照了国内外同类装置的基础上,设计开发了一种以TMS320F206DSP为核心的FTU,相对于传统的基于普通

学位

FTU数字信号处理器实时多任务电磁兼容

实时分布式系统的容错设计与负载平衡算法的研究

实时系统需要具备容错功能的观点,已经被实时与容错这两个领域的研究者所广泛认同?而分布处理和分布控制技术显示的广泛应用前景,各种分布的软硬件系统的大量开发使用,加之分

学位

容错冗余时间同步负载平衡

知识网络学习路径图的优化

人类通常以创造新概念或拓展旧概念的方式来更新知识体系，维基百科是这个知识体系中最具代表性的缩影和镜像之一。近年来的研究发现，在不断演化的知识库中蕴含着有价值的概念关

学位

知识库学习路径概念网络拓扑结构

信息检索模型性能改进研究

随着信息技术的快速发展，海量的信息在满足人们信息需求的同时，也为快速准确地定位相关信息带来了空前的挑战，而信息检索技术的提出正是为了解决这一问题。信息检索的任务是根据

学位

信息检索语义模型文档间相似度词项频率

基于面向对象的银行应用系统构架设计

利用面向对象的技术设计、构建银行应用系统架构是满足银行发展转变的关键.该文利用UML和UP的结合,从需求、分析和设计逐层深入,揭示面向对象的银行系统框架.该文重点设计银

学位

面向对象银行系统构架设计

酸轧机组人工神经网络系统

提出建立酸轧机组人工神经网络系统的必要性.建立该系统可以将实际生产过程中的模型系数的精度提高,进而改进酸轧工艺,最终提高酸轧的质量和效率.简要介绍了1420酸轧机组中的

学位

酸轧机组人工神经网络数据筛选优化仿真

面向开发部署的容器化集成方法

业务需求的频繁变更和用户对软件质量的高要求，使快速持续、高质量的实现软件应用交付成为项目开发的主要目标。但是由于软件项目复杂度的不断增加，在具体的开发活动中，各团队成

学位

软件开发容器技术持续集成云环境

面向标记文本的主题建模关键技术研究

其他学术论文