论文部分内容阅读
主题模型是近年来比较流行的数据挖掘方法,可以有效地提取文本或图像中潜在的语义结构信息,已经被广泛地应用于自然语言处理、社交网络分析、图像处理等领域。随着Web2.0时代的到来,微博平台、问答社区等领域出现大量带标记的文本。用户自主添加的标记常常会有个人偏好差别,缺少权威性和准确性,同时有很多不带标记的文本需要与带有标记的文本一起分析;有些规模较小的文本集特征稀疏,特别是微博之类的短文本,本身信息量少,给语义分析带来困难;大规模文本数据流的处理面临计算机性能的瓶颈。针对这些挑战,本文对面向标记文本的主题建模关键技术进行了研究,主要工作和贡献包括: (1)提出标记加权主题模型LW-LDA。标记主题模型没有利用标记相关性、没有区分标记重要性、强制文本从自身标记所对应的主题范围内进行采样导致模型可扩展性不足。LW-LDA模型考虑文档标记相关性和标记出现频率等因素的影响,设计了文档标记权重计算方法,将标记权重融合到主题模型中,设置了全局共享标记并打破了强制从本文档标记涵盖的主题进行采样的假设,当文档没有标记信息时,可以从所有主题中采样,使模型既能够适应多标记文档又能适应无标记文档的建模。对模型参数进行了推导,实验结果表明,与已有模型相比,LW-LDA模型在文本聚类任务、模型泛化能力、主题可解释性等方面有更优秀的表现。 (2)提出了结合词向量的标记加权主题模型WE-LWLDA。利用大规模外部语料训练出词向量,并作为先验知识进一步改进标记主题模型,在对标记主题进行吉布斯迭代采样的过程中,利用词向量优化主题向量,丰富文本的特征,提升模型的质量。实验结果表明,WE-LWLDA模型能够进一步提高建模的效果,将建模结果作为文本特征进行聚类分析时能够取得更高的聚类纯度,在主题一致性评价实验中,WE-LWLDA取得了更好的效果。 (3)提出了两种在线形式的标记加权主题模型O-LWLDA和PF-LWLDA。静态的标记主题模型在处理大规模文本数据和流式文本数据时会受到限制。O-LWLDA把文档数据流划分到若干个时间片,每个时间片内的文档子集训练一个标记加权主题模型,根据历史时间片模型的结果来计算当前时间片模型的先验参数,每个时间片维护一个动态的词典,仅保留该时间片中文本的词语,以防止词典过度增长。PF-LWLDA可以在一篇新文档到来时就立即进行处理,更新模型参数,模型使用时间窗口机制来计算文档标记的权重,使用蓄水池抽样策略构造词语的再生序列进行重采样,防止模型退化。O-LWLDA适合于对文档划分时间片进行模型更新,PF-LWLDA适合于对文档流进行实时处理,通过实验验证了新模型的效果。