论文部分内容阅读
离散属性数据是数据挖掘中的一类重要数据,而非监督学习,是数据挖掘采用的一类关键方法。本文针对多种类型的离散数据,包括文本数据,时序离散序列数据和多维离散数据,研究若干新的非监督数据挖掘算法。主要内容包括:
多文集文本的主题建模将LDA应用于多文集数据,提出了多文集文本上的主题建模方法C-LDA。在C-LDA中,主题信息可以在各个文集间传递,因此也可以将其看作一种基于传递学习的方法。正是基于文集间的信息传递,C-LDA更进一步克服了LDA模型在单文集文本数据上存在的过拟合现象。此外,所提出的模型,还可以作为有监督的主题模型。通过大型多文集数据集,我们验证了该模型的有效性。
时序离散序列的主题建模将LDA应用于时序离散序列数据,提出了T-BiLDA模型。在T-BiLDA模型中,作者提出了全局转移概率这一全新的概念。基于该概念,T-BiLDA模型将现有工作中的全局信息、局部信息和时序信息集成于同一个模型。在实际的入侵检测数据上取得了更好的效果。
多维离散数据的聚类分析作者提出了将多维离散数据映射到空间数据的框架R-map。使得现有的空间数据聚类算法可直接应用于映射后的数据。作者从理论上证明了映射中能保持数据的聚类性质,并从实验上验证了R-map的有效性。