论文部分内容阅读
广义主成分分析(Generalized principal component analysis,GPCA)是以主成分分析(Principal component analysis,PCA)为基础发展起来的,其思想与主成分分析相同,是用较少的指标代替多的指标来反映原来指标的信息.例如,有n个样品,每个样品测得p个指标,共有np个数据.由于指标之间往往互有影响,从p个指标中找出几个综合指标并对其进行分析,这样就可以使用小于p个指标去计算,却能得到p个指标计算出来的结果.从海量的单核苷酸多态性(Single nucleotide polymorphisms,SNPs)中,挑选出与疾病或某些临床、环境因素有关的位点,仍是全基因组关联分析中(Genomewide association study,GWAS)的一个重要的课题.本文针对表型-SNP构成的二维列联表结构,提出了一个GPCA模型,该模型是同时对所有SNPs建立的.具体就是对该模型的矩阵作奇异值分解(Singular value decomposition,SVD),来达到减少模型中参数的个数,因此该模型也可称Logistic SVD模型.另外,本文通过刻画SNP基因型在不同表型下的分布差异,构建了一个SNPs筛选准则.模拟研究显示,本文基于Logistic SVD模型和重新构建的SNPs筛选准则都优于现有的方法.