流形学习在数据降维中的应用研究

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:guobin_tj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的快速发展,越来越多的数据呈现出高维性和非线性,通过数据降维挖掘数据的本质逐步引起了学者们的广泛关注。与降维方法很少考虑数据几何结构不同,流形学习能够发现隐藏在高维数据中的低维流形结构,广泛应用于数据可视化、模式识别、图像处理和图像或文本信息检索。本文在查阅分析国内外文献资料的基础上,就各种流形学习方法及其在数据降维中的应用展开研究,具体工作如下:1.阐述各种经典流形学习方法,特别是等距映射算法,并对算法进行了总结和比较。以两个数据集为例,直观反映了流形学习数据降维的效果。2.从基于测地线距离的流形学习出发,描述了测地线距离理论。并针对ISOMAP无监督、不能生成显式映射函数等局限性,提出了SE-VQ-ISOMAP算法。改进的算法引入了类别信息,在迭代优化处理距离矩阵时引入矢量量化地标点,并把RBF作为函数基,得到降维方法的显式映射表示。实验结果表明,降维效果快速、稳定,识别率也高于ISOMAP及诸多改进算法。3.提出了利用半监督流形学习的SS-KDA、SDONNP和Reg-SS-ISOMAP方法。SS-KDA用标签数据最大化不同类的分离性,同时用无标签数据估计数据的本质几何结构提高了数据降维效果;SDONNP遵循了ONPP的正交性质,考虑类间和类内几何以及邻域信息的类间关系;Reg-SS-ISOMAP首先利用训练样本的标签样本构建K-CG图,得到近似样本间测地线距离,并作为特征向量代替原始数据点;然后将测地线距离作为内核,用半监督正则化方法代替MDS算法处理特征向量;最后利用正则化回归模型构建目标函数,得到低维表示的显式映射。实验结果表明,降维效果稳定,识别率高,显示了算法的有效性。4.针对现实获取的数据集呈现的复杂多流形特性,提出了Multi-ISOMAP算法。首先采用适用于多流形的邻域图构建方法和测地线距离计算方法,然后利用Sammon映射来保持最短路径,最后根据近邻的局部切空间的相似度,判断测试样本和新样本所属的流形。实验结果表明,算法很好地适用于多流形数据集,显示了良好的泛化能力。
其他文献
计算机系统集成是一种具备创造性和广泛应用性的项目,在很多行业和领域发挥着重要作用,得到了广泛认可.同时,计算机系统集成也是一种复杂的系统性管理工程,要求技术人员做好
随着中国加入WTO及其在全球经济中的影响力的日益加强,对环境变革和企业战略适应的理解变得越来越重要。改革所带来的产业层面的日益激烈的竞争已经迫使中国企业必须更具有柔性。改革的深化,市场进入壁垒的瓦解,跨国公司给本土企业造成的生存空间日益狭小。保守、僵化的中国国有企业可能面临倒闭的风险,而被能更好适应环境的新企业所取代。因此,面对日益增加的环境动荡性,中国企业除了发展用来应付非常复杂的竞争的柔性能力
信息时代下软件应用频率不断提高.软件应用的增多,人们对其质量的要求也不断提高.软件质量管理主要是通过软件开发过程实现的.但当前软件开发质量管理中却存在诸多问题,影响
水利工程是我国重点关注的一项工程,而且水利工程在每一项任务或项目当中都占据着重要的地位.由于全球气候的不断变化水利工程很容易受到极端天气或者是气候的影响,由此可见,
随着增量开发模式和重构技术的流行,软件自动化测试技术广泛应用于Java软件生产中,而单元测试是软件测试中的重要环节,不仅是保证代码的正确性,还能改进设计,易于对代码重构.
本文介绍了一种ECC算法在FPGA中的实现方法.在Xilinx公司的FPGA平台上,利用VHDL语言实现ECC算法,对NAND Flash存在的位翻转现象进行纠正,大大降低了误码率.该算法易于实现,运
随着互联网的广泛应用和信息技术的飞速发展,我国已经进入大数据时代.大数据能够充分利用长时间累积的数据预测未来的生活,能够有效提升人们生活质量,有利于节约和优化能源利
软启动器因为启动电流小、节约能源以及减少了对机械的启动冲击,而广泛应用于三相笼型异步电动机的启动中,如工业、农业和交通运输等领域。随着各领域生产机械的不断更新和发展
ISA法铜电解生产过程具有工艺反应机理复杂、非线性、强耦合、时变和大滞后等特点。电解生产过程中,电解槽中电解液化学成份的变化直接影响产品的质量。然而,目前并没有可靠的