【摘 要】
:
癌症一直是人类健康的巨大威胁。现代社会中,更多的外在因素成为了恶性肿瘤的发病诱因,但是癌症最根本的发病原因体现在基因的变化上。通常,癌症是通过发病的组织来源进行命名,但是同一部位的癌症会由于内在基因表达水平不同,具有不同临床表现,这种异质性使得同一部位的癌症分为不同亚型。为了提高癌症的治愈率,需要根据每个亚型制定合适的诊断与治疗方案。辨别癌症的亚型被认为是个体化治疗的关键和具有挑战性的步骤。现有的
论文部分内容阅读
癌症一直是人类健康的巨大威胁。现代社会中,更多的外在因素成为了恶性肿瘤的发病诱因,但是癌症最根本的发病原因体现在基因的变化上。通常,癌症是通过发病的组织来源进行命名,但是同一部位的癌症会由于内在基因表达水平不同,具有不同临床表现,这种异质性使得同一部位的癌症分为不同亚型。为了提高癌症的治愈率,需要根据每个亚型制定合适的诊断与治疗方案。辨别癌症的亚型被认为是个体化治疗的关键和具有挑战性的步骤。现有的大多数计算方法通过对癌症的基因表达值样本进行多分类来解决这个问题。尽管这些方法尤其是深度学习方法在数据分类方面表现良好,但它们通常需要大量数据进行模型训练,并且在可解释性方面存在局限性。然而,高质量的癌症样本往往并不容易采集,大多数情况下并没有足够多的数据用于训练。此外,由于癌症是一种复杂的系统性疾病,癌症的发生、发展往往伴随着多个分子的共同作用,仅通过分析单个分子很难完全了解癌症样本的表型差异。已有的一些文章表明基于差异表达的分子亚型分析方法并未达到预期。为了解决上述问题,本文提出了一个新的癌症分子亚型分类框架,此分类框架可以精准判断单个样本所属亚型。此工作利用斯皮尔曼相关系数为每个癌症亚型构建基因共表达网络,并在此基础上应用WGCNA生成基因共表达模块,然后为每个癌症亚型识别一个稳健的特异性共表达模块,基于共表达网络中特异性边上的扰动水平为每个样本生成网络特征数据。基于这些新的数据,训练用于多分类的深度神经网络模型。预测过程同样需要为未知类别的样本生成对应的网络特征数据,将这种数据输入训练好的分类模型中进行类别预测。为了避免预测结果的偶然性偏差,一个样本进行多次预测过程并采用投票策略决定最终分类结果。将此分类方法应用于来源于TCGA平台的乳腺癌(BRCA)和胃腺癌(STAD)分子亚型数据集时,其分类性能在多项评价指标上都优于仅基于差异表达的方法。特别地,该算法能够突破样本数据量不平衡的限制,在小样本量类别上表现优于其他算法。除了提高分类性能外,本文对挑选出的差异共表达模块进行了分析,挖掘出差异共表达特征与差异表达特征之间的互补性关系,并将用于分类的特异性共表达模块与其背后生物学意义进行关联。除了提升算法性能,本研究意在为诊断生物标志物设计、癌症机制研究和个体化治疗计划选择提供新的见解。
其他文献
转移是癌症研究中一个长期存在的问题,阐述癌症的转移机制对于癌症的临床诊断以及晚期癌症患者的治疗具有十分重要的意义。作为癌症发展中最为致命的一个过程,大约有90%的患者死于癌症的转移阶段,并且常常表现出对某些器官的偏好性,大脑、骨头、肝脏和肺部是四种最常见的转移器官。差异表达基因并不具有保守性和特异性,很难从系统层面解释复杂的癌症机理,缺乏对系统级特性的整体看法。得益于基因测序技术的进步以及网络建模
淀粉Ghost是淀粉糊化后残留在淀粉糊(Gelatinized Starch Dispersions,GSD)中的不溶性空心囊结构,因其形似“ghost”而得名。深入了解淀粉Ghost的组成、结构与性质有利于把握GSD的整体功能性质,精准化生产含Ghost产品。目前关于淀粉Ghost的组成结构与性质的研究已有不少,但缺乏对影响淀粉Ghost结构与性质因素的系统性研究。本论文分别从内部因素(淀粉种类
桑椹花色苷作为颜色鲜艳且无副作用的天然色素,具有多种生物活性。本文以桑椹花色苷为研究对象,分别利用分子辅色技术和微胶囊化技术提高桑椹花色苷的稳定性,并探究分子辅色反应的机理,从而拓宽其在食品、化妆品和生物医药等领域的应用。首先选取了七种不同化学结构的酚酸、酚醛(对羟基苯甲酸、原儿茶酸、没食子酸、阿魏酸、咖啡酸、香草酸、香草醛)与桑椹花色苷进行辅色作用。分析辅色反应前后的紫外扫描光谱变化,比较辅色剂
下呼吸道感染(Lower respiratory tract infection,LRTI)是一种严重危害人类健康的感染性疾病。LRTI危重病情多由细菌引发,且病原谱广泛,因而临床上迫切需要一个全面的检测组以实现LRTI细菌的快速、准确诊断。基于此,本论文发展了一种基于液滴编码-配对的微流控多重数字化环介导等温扩增(Loop-mediated isothermal amplification,LA
当前,逐渐增强的细菌耐药性已成为全球性的公共健康问题。耐药性细菌感染不仅会延长治疗周期和增加治疗花费,还会显著增加病死率。造成细菌耐药性增强的一个重要原因是抗生素滥用,因此合理使用抗生素成为了一个迫在眉睫的问题。临床工作中通过抗生素敏感性测试(Antimicrobial Susceptibility Testing,AST)来指导抗生素的选择。但是,常规AST方法普遍存在测试时间较长的问题,难以满
锥栗是我国的经济林树种之一,其果实营养丰富,深受大众喜爱。本文选取了两个具有代表性的锥栗品种“金锥(YS)”和“白岩一号(WS)”,探究锥栗果仁发育过程(S1、S2、S3和S4时期)中淀粉和微量营养素(维生素E、类胡萝卜素和多酚)的代谢变化规律。另外,考虑到新鲜锥栗不耐储藏的特性,本文进一步探究了水煮和烤制两种热加工处理方式对成熟锥栗果仁中淀粉和微量营养素的影响规律。研究结果如下:(1)探讨了锥栗
随着下一代测序技术的发展,单细胞RNA测序(scRNA-seq)已成为揭示细胞间广泛异质性不可或缺的工具。聚类是揭示单细胞转录组谱的一项基本任务,也是受到广泛关注的关键计算问题。最近,针对scRNA-seq数据研究者们开发了许多聚类算法,其中包含一些结合数据降维和深度学习的聚类方法。然而,由于scRNA-seq数据低维潜在空间的特征表示不稳定,与降维相结合的深度学习聚类方法仍然不能产生稳健的聚类效
会话中的情感识别在意见挖掘,人力资源,医疗保健等不同的领域逐渐得到了广泛的应用,对于许多人工智能相关的应用来说,是不可或缺的一部分。通过分析会话中的文本识别出会话中每一句话语的情感,依据不同的情感状态做出适当的反馈,可以让机器智能来帮助人类更好的进行工作,对于各领域的信息化发展与智能化发展有着深远的影响和积极意义。虽然目前的会话情感识别方法已经取得极佳的效果,然而,现有的方法无法很好的整合文本情感
根因定位是网络故障管理中的关键过程,旨在从一系列观察到的故障现象中推断出根因的确切来源。解决根因定位的现有方法有些基于逻辑规则,有些基于机器学习。然而,随着通信网络变得更加复杂,知识驱动的基于逻辑规则的方法面临着效率低下和缺乏灵活性的问题。数据驱动的机器学习方法则由于依赖大规模训练集和缺乏可解释性,并未被业界广泛接受。本文尝试将根因定位中知识驱动的方法与数据驱动的方法结合——同时利用两种方法的优势
面粉作为小麦的主要产物,因其良好的加工性能,成为我国主要的主食品种。但是,我国目前生产的面粉主要以中低筋面粉为主,随着人们生活水平的提升以及对食物健康的愈加关注,高品质的面制品逐渐被大众所青睐。添加改良剂成为一种重要的加工方法。聚3-羟基丁酸酯(PHB)是存在于微生物体内的天然产物,其降解产物3-羟基丁酸(3HB)具有多种生理功能。PHB具有与面粉乳化剂类似的两亲性结构,初步试验发现其能改善面粉粉