面向乳腺癌数据的单纯复形建模方法及拓扑不变量分析

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:jinshu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
乳腺癌是一种常见癌症,其预防和治疗具有重要意义,miRNA能抑制蛋白质编码进而影响乳腺癌的发展。通过miRNA表达水平数据能够对乳腺癌进行早期诊断,筛选乳腺癌生物标志物。单纯复形是一种拓扑分析方法,其中的Q分析方法能分析样本间的拓扑连通性,该方法适用于miRNA间复杂交互作用的分析,通过离心率、单纯形显著性和单纯形相似度等拓扑不变量,分析数据的内部结构,进而揭示miRNA与乳腺癌的联系。本文基于乳腺癌组织的miRNA表达水平数据建立单纯复形进行Q分析,提出了三种Q分析分类算法和重要特征识别方法。为建立单纯复形,对每个miRNA表达水平进行核密度估计,实现在统一标准下设定阈值并保留miRNA表达水平分布的多样性,将多个分位数点作为阈值把数据矩阵转化为多个邻接矩阵,建立单纯复形并进行Q分析,使用多维数聚集熵和系统复杂度考察拓扑结构变化。计算miRNA在同一组织中、不同阈值下的单纯形显著性、离心率等拓扑不变量,基于多个阈值形成拓扑不变量的分布,在不同组织中保持拓扑不变量分布一致的miRNA被认为与乳腺癌无关并剔除出数据集。基于上述单纯复形构造方法,来自共同受试者的203个样本为训练集,以此建立单纯复形避免无关变量的干扰。为了保证不同单纯形间阈值的统一,以训练集中样本为单纯形,建立包含两种组织的单纯复形,基于此单纯复形的Q分析结果计算单纯形间相似度,提出最小化类间相似度与类内相似度的比值选择最优阈值的方法。另一种阈值选取方法则依据系统复杂度,在指定采样个数下,选取多个阈值建立多个单纯复形用于分类。进一步,在选定阈值下,对训练集中不同组织,以miRNA为样本分别建立共轭单纯复形。对于测试集中的样本,以单纯形相似度结合阈值及k近邻分类算法,提出三种Q分析分类算法。结果显示,三种分类算法都能达到85%的分类正确率,其中单阈值分类算法达到较高分类准确率但鲁棒性较差,单阈值k近邻分类准确率稍稍下降,分类的稳定性与前者接近,多阈值分类算法最为稳定而准确率降低很小。尝试改变训练集进行交叉验证,发现多阈值分类算法正确率均值最高且最为稳定。由单纯形相似度和分类结果能计算各个miRNA在分类中的贡献度,认为贡献度高的与乳腺癌相关性大。贡献度最高的20个miRNA中,16个在相关文献中得到支持。该算法从拓扑网络的出发,基于样本间的连通性,识别出乳腺癌相关miRNA,与其它分类方法比较,本文识别的乳腺癌相关miRNA略有不同,为乳腺癌分析提供新的角度,为其早期诊断提供依据。
其他文献
以贵州德江地区晚二叠世-早三叠世地层为主要的研究对象,在详细的野外调研工作为基础上,以构造地质学理论、沉积学理论、层序地层学理论、古生物学理论等为指导,深入探讨研究贵州德江地区晚二叠-早三叠世沉积环境及演化分析。1)研究区二叠系-三叠系地层发育良好,层序完整,生物化石丰富,其中区内二叠系主要为中统及上统地层,底部主要为灰黑色碳质页岩、碳质泥岩、石英砂岩及燧石层组成,局部地段可见煤线地层,中上部岩性
目的以工作压力源-脱离模型为理论框架,探讨癌症患者主要照顾者心理脱离与照顾负担、疲劳与负性情绪的关系,为癌症患者主要照顾者积极心理干预提供实证依据。方法采用横断面
自由基是不稳定分子,一旦自由基与身体内的原子结合就会发生链式反应,它们就会造成细胞中DNA损伤从而导致衰老和各种疾病的发生。抗氧化蛋白质是一种保护细胞免受自由基破坏的物质,准确识别抗氧化蛋白对于理解它们延缓衰老的作用和在相关疾病预防治疗方面非常重要。传统生物手段对蛋白质功能进行分析耗时费力,因此,发展识别抗氧化蛋白的计算方法是非常可取和急需的。本文所做的主要工作如下:1、为有效挖掘蛋白质序列中的特
奇异摄动法是一种在力学领域求解非线性微分方程的方法,它被广泛地应用于力学、控制工程、经济系统等多种学科,是应用数学研究方向中很重要的一种数学求解方法。目前所存在的
背景:胃癌作为目前常见的恶性肿瘤之一,全世界恶性肿瘤死亡率第三高的癌症,具有较复杂的发病、侵袭及转移机制。其癌变过程是长期的细胞生物学行为由正常演变为异常的过程,其
在自然科学、工程技术以及经济管理等领域中的很多数学模型,其表现形式通常为常微分方程的定解问题,如何有效地进行求解是非常关键的。由于理论方法的局限性,很多方程无法求
利用常微分方程建立数学模型来研究传染病系统的动力学行为,会加深人们对于患病机理的认识,优化预防和治疗的策略。因此越来越多的学者通过考虑健康的靶细胞、被病毒感染的细
目的:颅内外动脉狭窄是引起缺血性脑血管病的重要原因,因其很高的致死和致残率,常常给家庭及社会带来沉重的负担。而无症状颅内外动脉狭窄因其临床无症状或症状较轻,常不能引
研究目的:分析食管癌患者传统营养指标,包括身体质量指数(body mass index,BMI)、血清白蛋白(albumin,ALB)、血红蛋白(hemoglobin,HB)、总淋巴细胞计数(total lymphocyte cou
分数阶微分方程一个最重要的特点就是它的非局部性,能很好地描述一些不规律关系和现象,并且非常适用于对一些拥有记忆特性的材料或者过程进行建模,在生物工程、物理工程、金