论文部分内容阅读
乳腺癌是一种常见癌症,其预防和治疗具有重要意义,miRNA能抑制蛋白质编码进而影响乳腺癌的发展。通过miRNA表达水平数据能够对乳腺癌进行早期诊断,筛选乳腺癌生物标志物。单纯复形是一种拓扑分析方法,其中的Q分析方法能分析样本间的拓扑连通性,该方法适用于miRNA间复杂交互作用的分析,通过离心率、单纯形显著性和单纯形相似度等拓扑不变量,分析数据的内部结构,进而揭示miRNA与乳腺癌的联系。本文基于乳腺癌组织的miRNA表达水平数据建立单纯复形进行Q分析,提出了三种Q分析分类算法和重要特征识别方法。为建立单纯复形,对每个miRNA表达水平进行核密度估计,实现在统一标准下设定阈值并保留miRNA表达水平分布的多样性,将多个分位数点作为阈值把数据矩阵转化为多个邻接矩阵,建立单纯复形并进行Q分析,使用多维数聚集熵和系统复杂度考察拓扑结构变化。计算miRNA在同一组织中、不同阈值下的单纯形显著性、离心率等拓扑不变量,基于多个阈值形成拓扑不变量的分布,在不同组织中保持拓扑不变量分布一致的miRNA被认为与乳腺癌无关并剔除出数据集。基于上述单纯复形构造方法,来自共同受试者的203个样本为训练集,以此建立单纯复形避免无关变量的干扰。为了保证不同单纯形间阈值的统一,以训练集中样本为单纯形,建立包含两种组织的单纯复形,基于此单纯复形的Q分析结果计算单纯形间相似度,提出最小化类间相似度与类内相似度的比值选择最优阈值的方法。另一种阈值选取方法则依据系统复杂度,在指定采样个数下,选取多个阈值建立多个单纯复形用于分类。进一步,在选定阈值下,对训练集中不同组织,以miRNA为样本分别建立共轭单纯复形。对于测试集中的样本,以单纯形相似度结合阈值及k近邻分类算法,提出三种Q分析分类算法。结果显示,三种分类算法都能达到85%的分类正确率,其中单阈值分类算法达到较高分类准确率但鲁棒性较差,单阈值k近邻分类准确率稍稍下降,分类的稳定性与前者接近,多阈值分类算法最为稳定而准确率降低很小。尝试改变训练集进行交叉验证,发现多阈值分类算法正确率均值最高且最为稳定。由单纯形相似度和分类结果能计算各个miRNA在分类中的贡献度,认为贡献度高的与乳腺癌相关性大。贡献度最高的20个miRNA中,16个在相关文献中得到支持。该算法从拓扑网络的出发,基于样本间的连通性,识别出乳腺癌相关miRNA,与其它分类方法比较,本文识别的乳腺癌相关miRNA略有不同,为乳腺癌分析提供新的角度,为其早期诊断提供依据。