高维数据降维可视化研究及其在生物医学中的应用

来源 :武汉大学 | 被引量 : 7次 | 上传用户:magicMan555
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机技术、信息技术以及存储技术的快速发展,为我们采集、处理与存储所获取的海量、高维、非结构化的数据提供了极大的便利。而随着信息大爆炸时代的到来,我们接触到的数据已经不再以数值型数据为主,更多的是文本数据、图像数据、以及多媒体数据等非数值型数据。数据可视化所面向的数据对象由传统的数值型数据扩展为多来源、多维度和多尺度的复杂数据集合,这些新的数据特点对高维数据可视化方法的研究和应用带来了更高的要求和更大的挑战。降维技术与可视化技术相结合,不但是处理高维数据,克服“维数灾难”,实现数据可视化的重要途径,并且作为数据预处理的一种方式,为进一步深入研究数据的模式与关系提供直观的分析基础。具体地来说,降维可视化技术利用线性或非线性降维方法将高维数据投影到低维空间,以人们可以理解的可视化方式,直观地呈现数据中的模式与信息,从而有效的帮助人们从海量数据中挖掘出有用信息和知识。通过对目前降维可视化方法进行对比和分析发现,由于数据的复杂性与多样性,以及现有降维可视化算法各自的优缺点,没有一种降维可视化算法适用于所有的数据集。从可视化角度来看,目前已有的降维可视化算法主要存在以下三个局限性: (1)将高维数据投影至二维空间后,二维空间样本点的分布或保持了高维数据的全局特性,或保持了高维数据的局部特性; (2)由于度量空间的限制,将降维可视化结果呈现在单一的二维映射图中,则不能准确地呈现大部分真实数据的结构和关系,如生物医学中的疾病表型数据。因为不同的疾病可能呈现出相同的表型,而相同的表型则有可能对应着不同的疾病,经降维可视化处理之后,二维空间中样本点的分布关系并不能全面且完整地呈现出疾病与表型之间的关系;(3)大部分降维可视化算法对于数据间相似性的度量,主要基于数据间的距离。当处理海量高维数据时,计算样本点之间距离的效率会非常低。围绕上述三个局限性,本文从非线性降维方法中的流形学习方法为出发点,即假设样本点是均匀分布高维空间的低维流形曲面上。利用图结构对数据中的几何结构进行建模,将基于几何技术的可视化方法有机的结合在一起,针对不同数据集的特性,提出三种降维可视化方法,并以不同特性的生物医学数据为例,将生物医学高维数据直接投影到二维可视化空间,使用户没有与数据相关专业背景的前提下,也能参与到降维可视化的过程中,发掘数据清晰的结构与模式,为进一步深入研究数据提供可视化依据。本文研究内容与研究成果如下:(1)提出一种基于拉普拉斯正则化的随机近邻嵌入算法(LA2SNE).该算法利用拉普拉斯分布的胖尾特征,分别计算高维空间与低维空间样本点之间的概率分布,取代传统计算样本点之间欧氏距离的方法,从而避免样本点在二维投影空间过度重叠。利用对称Kullback-Leibler散度最小化高维数据分布与低维数据分布之间的差异,从而使低维可视化空间中的样本点的分布能够更好地保持高维数据的全局结构。通过构建高维空间拉普拉斯矩阵作为正则化项,通过调节惩罚系数,使可视化空间数据分布的内部结构更加分明,相同的点聚类效果更加明显。将该方法分别应用在模拟数据瑞士卷(Swissroll)和人类微生物组数据上,并对可视化结果进行量化分析,其结果证明所提出的LA2SNE方法对于模拟数据和真实数据都能够有很好的可视化结果。(2)提出一种基于流形正则化的多映射图的可视化方法(L-mm t-SNE),将传统的单一映射图可视化结果投影到多个映射图中。该方法解决了传统度量空间所不能解决的“共现”问题,对于“疾病——表型”数据集,不同的疾病所呈现出的症状可能非常相似,因此L-mm t-SNE引入流形正则化项,使得数据集中局部相似的点更加紧凑,不相似的点则分布到不同的映射图中。并且样本点权重大的更倾向于聚类在一个映射图,从而减少了映射图的数量。实验结果表明,L-mm t-SNE可以利用较少的二维映射图可视化具有“共现"特征的数据集,其可视化结果具有很好的解释。(3)提出一种快速降维可视化方法。该方法首先利用双流形正则化的非负矩阵分解对数据进行预降维,降维后的子空间保持了原始空间中数据的主要特征,接着利用VP树方法,通过查找“最优点”,对数据集进行近邻点的搜索;然后根据概率距离计算近邻点之间的相似度;最后利用KL散度将子空间数据投影到可视化空间。与传统可视化方法相比,本文所提出的方法对海量微生物组高维数据的可视化结果能够很好地表达原始数据的结构,在降低可视化时间复杂度上具有显著的效果。
其他文献
习水县是典型的山区农业大县,发展山地农业机械化对全县经济发展和社会稳定具有重要支撑作用。由于地形复杂、土地破碎,山地占全县耕地面积的85%,非常适合发展山地农机。因山
异质信息网络是无处不在的。挖掘隐藏在异质网络中偏离正常数据对象的离群点是数据挖掘领域的重要任务之一。离群点检测在入侵检测、欺诈检测、预测恐怖袭击、预测可疑事件和
人类史上有很多失落的部分是现代历史还无法告诉我们的,而这些失落的线索,很可能就如同那些沉没在海底的遗迹一样.深藏人类文明兴衰的秘密;
期刊
近期研究显示,线粒体的功能已不单单限于有氧呼吸及能量合成,线粒体释放的损伤相关分子模式(尤其是线粒体DNA)参与机体的一系列免疫调控,介导机体特定免疫应答的形成与发展。
外籍球员的引进管理既是一个职业足球俱乐部工作的重要组成部分,同时也是衡量一个职业足球俱乐部发展水平的重要标尺。中超俱乐部高薪引进外援在业界存有国内球员的生存之忧
最近邻搜索是机器学习、计算机视觉和信息检索里一个重要的基础性问题。然而,在大规模高维数据环境下,给定查询点,找到其精确的最近邻需要大量的计算及存储空间。近似最近邻
曲面光学元件涉及微结构曲面光学元件和连续曲面光学元件等。该类光学元件对光学系统成像质量的提高具有显著优势,因而得到了广泛使用。但通过传统光学手段对该类光学元件面
目的:以“微信”为研究的平台,对心血管内科患者进行健康教育,并对其认知情况进行调查研究,为心血管内科患者疾病知识的提高和改善心血管内科患者生活质量提供参考依据。方法