离散数据上的非监督数据挖掘算法研究

来源 :中国科学院软件研究所 | 被引量 : 0次 | 上传用户:shikongqidian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
离散属性数据是数据挖掘中的一类重要数据,而非监督学习,是数据挖掘采用的一类关键方法。本文针对多种类型的离散数据,包括文本数据,时序离散序列数据和多维离散数据,研究若干新的非监督数据挖掘算法。主要内容包括:   多文集文本的主题建模将LDA应用于多文集数据,提出了多文集文本上的主题建模方法C-LDA。在C-LDA中,主题信息可以在各个文集间传递,因此也可以将其看作一种基于传递学习的方法。正是基于文集间的信息传递,C-LDA更进一步克服了LDA模型在单文集文本数据上存在的过拟合现象。此外,所提出的模型,还可以作为有监督的主题模型。通过大型多文集数据集,我们验证了该模型的有效性。   时序离散序列的主题建模将LDA应用于时序离散序列数据,提出了T-BiLDA模型。在T-BiLDA模型中,作者提出了全局转移概率这一全新的概念。基于该概念,T-BiLDA模型将现有工作中的全局信息、局部信息和时序信息集成于同一个模型。在实际的入侵检测数据上取得了更好的效果。   多维离散数据的聚类分析作者提出了将多维离散数据映射到空间数据的框架R-map。使得现有的空间数据聚类算法可直接应用于映射后的数据。作者从理论上证明了映射中能保持数据的聚类性质,并从实验上验证了R-map的有效性。
其他文献
现代化信息技术的发展产生了大量的数字化知识成果,包括音频、视频和图片等。这些数字载体易于复制、更改和传播,同时也容易被攻击者和伪造者利用,从而对知识成果造成损害和负面
模型的配准是很多科研应用领域的基础问题。给定两个三维模型,配准算法对其中一个模型(源模型)作变换使得变换后的模型与另一个模型(目标模型)满足某种(如几何上或拓扑上)对应关系。
人脸识别技术由于其重要的应用价值和理论意义而受到越来越多的关注和应用。一个实用的人脸识别系统需要满足三个特性:精确性、稳定性和易用性,事实上它们也构成了人脸识别技术
随着各领域科学研究的开展,科技文献数据日益受到相关学者的关注。因为科技文献中隐藏着非常丰富的有价值的信息,对其进行深入挖掘具有重要意义。随着科技文献分析适用的方法
在过去的二十年中,数据挖掘和机器学习受到了越来越多的关注。这很大程度上是因为在互联网时代信息传播和积累的速度越来越快,人工处理数据越来越困难,智能化及自动化的数据处理
近年来,随着以微博为代表的社交网络多媒体平台的蓬勃发展,越来越多的用户自生成内容在社交网络上涌现。这种基于社交网络发布和分享多媒体内容的行为方式成为当代人生活的重要
随着Web服务技术的不断完善和广泛应用,越来越多的企业和应用提供商开始将其业务功能和应用程序以Web服务的形式发布在Internet上,快速便捷地挖掘潜在业务伙伴和合作机会,以实现
角点检测是一个图像处理领域的基础问题,由于具有旋转不变等特性,角点成为一种重要的图像局部特征,角点检测被广泛应用于图像配准与匹配、目标识别、运动分析、目标跟踪等领域。
现代流程工业产生了大量与生产状态相关的过程数据,其庞大的规模凸显了传统数据分析方法运算复杂度过高、分析规模受限的不足。同时,流程工业生产过程中所包含的一些复杂性,如传
随着Internet技术飞速发展,各种信息能在网络上方便、快捷地传输。多媒体比纯文本含有更多的信息量,是人们获取和保存信息的重要手段。因为视觉信息在所有感官获取信息总量中占