基于粒计算的疾病差异表达基因研究

来源 :江南大学 | 被引量 : 0次 | 上传用户:yang20090907
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文基于粒计算理论,结合已有的聚类算法以及Logistic Regression、Random Forest等数据挖掘算法,对其进行改进和优化,并建立优化模型。从NCBI以及GEO数据库中分别下载病毒蛋白质序列和基因芯片数据,通过对其进行预处理与数字特征化后,应用到模型中,结合实验结果,证实本文提出的模型能为生物信息大数据的处理提供新的有效的方法。文章的主要工作内容可以概括如下:第二章是准备知识,对各类聚类算法、粒度空间中的一些基本概念、最小生成树算法、Logistic Regression模型和Random Forest模型的原理进行了介绍。第三章在粒计算理论的基础上,进行了基于归一化距离的最小生成树分类算法研究。首先,根据统计学中类内偏差和类间偏差的性质,定义了新的最优聚类指标,然后在已有的粒度空间生成算法的基础上,引入最小生成树以及新的最优聚类指标,给出了最小生成树分类算法并建立最优聚类模型。最后,将最优聚类模型应用于898条同时含有HA和NA并且能够感染人的禽流感病毒的蛋白质序列上,基于距离中心最近原则,先后两次运行最小生成树分类算法,得到了最优层次结构,相应地,选出了6条具有代表性的病毒序列。第四章的研究对象是癌症,通过将Logistic Regression算法和Random Forest算法进行组合,提出了一种新的混合模型——LR-RF模型,基于FWER错误测度的Bonferroni检验,将模型应用在两个乳腺癌DNA微阵列数据集上,筛选乳腺癌中差异表达的基因。通过十次重复随机试验,本文所提出的LR-RF模型的平均预测准确率达到93.11%,方差低至0.00045。当Random Forest算法中基因重要性评分进行排序时选取的阈值?=0.2,预测准确率达到最大值95.57%,并且筛选出来的差异表达基因数量相对较少。另外,建立差异表达基因的相互作用网络,通过分析基因相互作用网络,可以发现本文选择的前20个基因中的大多数都涉及乳腺癌的发生与发展过程。这些结果都证明了LR-RF模型的可靠性和有效性。
其他文献
本试验在前期全国山杏资源调查的基础上,通过科学的采样布点,于2015年在其全部分布范围内采集了75个地理种源样地的能够充分反映整体信息的山杏种子样品,并进行测定其种实性
我国蔗糖酯产品大多是复配型,杂质含量及灰分较高,蔗糖单酯含量低,质量较差。而日本三菱株式会社研发了各个系列的从1-16的亲水-亲油平衡值(Hydrophile-lipophile Balance,HLB
案例描述:案例一、每天早上幼儿园都迎接着孩子们的欢声笑语,美好的一天在孩子们的笑声中开始了,健康的生活从早餐开始,孩子们陆续进班后整理好自己的物品、盥洗、聊天等等环
会议
目的总结分析膀胱内翻性乳头状瘤(IPB)患者的临床资料、膀胱灌注治疗方案及随访结果,探讨与IPB病人术后复发相关的危险因素,探究术后长期膀胱灌注的治疗意义,为高复发风险患
目的:通过随访不典型膜性肾病(AMN)患者的临床数据,回顾性分析不同治疗缓解情况组中肾小球免疫复合物分布的差异,从而探讨不典型膜性肾病中免疫复合物沉积差异的临床意义及指
研究目的和意义:分析“固本清源”理论指导单纯中医药干预非小细胞肺癌(Non-small Cell Lung Cancer,NSCLC)患者后症状变化情况及相关症状分布特点,基于症状积分变化探索基于患者报告的症状评价方法。更好得进行临床经验传承与中医药临床疗效评价。研究方法:采用自身前后对照研究,纳入36例2019年7月至2020年1月在林洪生教授门诊就诊、接受单纯中医药治疗的非小细胞肺癌患者。予中
气垫船是一种利用高压空气在船只底部和水面之间建立起空气垫的交通运输工具,又称作表面效应船。受气垫船航程所限,多数情况下需在坞载舰的协同配合下执行长航程的任务。因此
大学英语教学改革前的英语教学一直被认为是通用英语教学,但目前仍缺乏实证研究去检验其学术性。伴随着大学英语教学改革而来的是大学英语考试(CET-4、CET-6)的改革。学术英
以内蒙古中西部地区为代表的北方寒冷干旱地区在冬季的农业生产过程中普遍采用“三立一坡”型日光温室为研究对象,日光温室内部环境的温度和湿度表现出与时间相关的函数关系
近年来,随着社会网络服务和移动智能应用的飞速发展,社会网络数据总量呈现了爆炸式的增长,由于数据在发布过程中存在隐私泄露的风险,导致用户人身财产安全遭到严重的威胁,因此敏感关系隐私保护作为社会网络中一项重要的隐私保护问题受到了政府有关部门的高度关注,也迅速地成为了数据库隐私保护领域的新兴研究热点。针对当前社会网络中敏感关系预测和保护过程中存在的推演机制简单、预测指标单一和保护方法不完善等问题,本文提