论文部分内容阅读
针对基因表达数据的高维小样本问题,提出一种新的线性降维方法。该方法采用保局投影,结合样本的类别信息,将基因表达数据投影到特征子空间。与主分量分析方法寻找最大方差方向不同,类别保留投影方法旨在寻找能够反映样本类别结构的特征子空间。采用该方法进行数据降维的同时能使样本按照类别属性进行聚类。对真实的基因表达数据进行了降维可视化和k均值聚类分析,并与主分量分析方法进行了实验比较,结果表明,类别保留投影方法在实现降维的同时能更好地识别样本的类别特征,从而可视化效果相比主分量分析要好得多,且能得到较好的聚类效果。