论文部分内容阅读
计算机技术、信息技术以及存储技术的快速发展,为我们采集、处理与存储所获取的海量、高维、非结构化的数据提供了极大的便利。而随着信息大爆炸时代的到来,我们接触到的数据已经不再以数值型数据为主,更多的是文本数据、图像数据、以及多媒体数据等非数值型数据。数据可视化所面向的数据对象由传统的数值型数据扩展为多来源、多维度和多尺度的复杂数据集合,这些新的数据特点对高维数据可视化方法的研究和应用带来了更高的要求和更大的挑战。降维技术与可视化技术相结合,不但是处理高维数据,克服“维数灾难”,实现数据可视化的重要途径,并且作为数据预处理的一种方式,为进一步深入研究数据的模式与关系提供直观的分析基础。具体地来说,降维可视化技术利用线性或非线性降维方法将高维数据投影到低维空间,以人们可以理解的可视化方式,直观地呈现数据中的模式与信息,从而有效的帮助人们从海量数据中挖掘出有用信息和知识。通过对目前降维可视化方法进行对比和分析发现,由于数据的复杂性与多样性,以及现有降维可视化算法各自的优缺点,没有一种降维可视化算法适用于所有的数据集。从可视化角度来看,目前已有的降维可视化算法主要存在以下三个局限性: (1)将高维数据投影至二维空间后,二维空间样本点的分布或保持了高维数据的全局特性,或保持了高维数据的局部特性; (2)由于度量空间的限制,将降维可视化结果呈现在单一的二维映射图中,则不能准确地呈现大部分真实数据的结构和关系,如生物医学中的疾病表型数据。因为不同的疾病可能呈现出相同的表型,而相同的表型则有可能对应着不同的疾病,经降维可视化处理之后,二维空间中样本点的分布关系并不能全面且完整地呈现出疾病与表型之间的关系;(3)大部分降维可视化算法对于数据间相似性的度量,主要基于数据间的距离。当处理海量高维数据时,计算样本点之间距离的效率会非常低。围绕上述三个局限性,本文从非线性降维方法中的流形学习方法为出发点,即假设样本点是均匀分布高维空间的低维流形曲面上。利用图结构对数据中的几何结构进行建模,将基于几何技术的可视化方法有机的结合在一起,针对不同数据集的特性,提出三种降维可视化方法,并以不同特性的生物医学数据为例,将生物医学高维数据直接投影到二维可视化空间,使用户没有与数据相关专业背景的前提下,也能参与到降维可视化的过程中,发掘数据清晰的结构与模式,为进一步深入研究数据提供可视化依据。本文研究内容与研究成果如下:(1)提出一种基于拉普拉斯正则化的随机近邻嵌入算法(LA2SNE).该算法利用拉普拉斯分布的胖尾特征,分别计算高维空间与低维空间样本点之间的概率分布,取代传统计算样本点之间欧氏距离的方法,从而避免样本点在二维投影空间过度重叠。利用对称Kullback-Leibler散度最小化高维数据分布与低维数据分布之间的差异,从而使低维可视化空间中的样本点的分布能够更好地保持高维数据的全局结构。通过构建高维空间拉普拉斯矩阵作为正则化项,通过调节惩罚系数,使可视化空间数据分布的内部结构更加分明,相同的点聚类效果更加明显。将该方法分别应用在模拟数据瑞士卷(Swissroll)和人类微生物组数据上,并对可视化结果进行量化分析,其结果证明所提出的LA2SNE方法对于模拟数据和真实数据都能够有很好的可视化结果。(2)提出一种基于流形正则化的多映射图的可视化方法(L-mm t-SNE),将传统的单一映射图可视化结果投影到多个映射图中。该方法解决了传统度量空间所不能解决的“共现”问题,对于“疾病——表型”数据集,不同的疾病所呈现出的症状可能非常相似,因此L-mm t-SNE引入流形正则化项,使得数据集中局部相似的点更加紧凑,不相似的点则分布到不同的映射图中。并且样本点权重大的更倾向于聚类在一个映射图,从而减少了映射图的数量。实验结果表明,L-mm t-SNE可以利用较少的二维映射图可视化具有“共现"特征的数据集,其可视化结果具有很好的解释。(3)提出一种快速降维可视化方法。该方法首先利用双流形正则化的非负矩阵分解对数据进行预降维,降维后的子空间保持了原始空间中数据的主要特征,接着利用VP树方法,通过查找“最优点”,对数据集进行近邻点的搜索;然后根据概率距离计算近邻点之间的相似度;最后利用KL散度将子空间数据投影到可视化空间。与传统可视化方法相比,本文所提出的方法对海量微生物组高维数据的可视化结果能够很好地表达原始数据的结构,在降低可视化时间复杂度上具有显著的效果。