基于粒计算的疾病差异表达基因研究

来源 :江南大学 | 被引量 : 0次 | 上传用户：yang20090907

【摘要】

：

本文基于粒计算理论,结合已有的聚类算法以及Logistic Regression、Random Forest等数据挖掘算法,对其进行改进和优化,并建立优化模型。从NCBI以及GEO数据库中分别下载病毒蛋

【作者】

：

孙梦梦

【出处】

：

江南大学

【发表日期】

：

2004年期

【关键词】

：

粒计算最小生成树分类算法 Logistic Regression-Random Forest算法差异表达基因基因相互作用网络

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文基于粒计算理论,结合已有的聚类算法以及Logistic Regression、Random Forest等数据挖掘算法,对其进行改进和优化,并建立优化模型。从NCBI以及GEO数据库中分别下载病毒蛋白质序列和基因芯片数据,通过对其进行预处理与数字特征化后,应用到模型中,结合实验结果,证实本文提出的模型能为生物信息大数据的处理提供新的有效的方法。文章的主要工作内容可以概括如下:第二章是准备知识,对各类聚类算法、粒度空间中的一些基本概念、最小生成树算法、Logistic Regression模型和Random Forest模型的原理进行了介绍。第三章在粒计算理论的基础上,进行了基于归一化距离的最小生成树分类算法研究。首先,根据统计学中类内偏差和类间偏差的性质,定义了新的最优聚类指标,然后在已有的粒度空间生成算法的基础上,引入最小生成树以及新的最优聚类指标,给出了最小生成树分类算法并建立最优聚类模型。最后,将最优聚类模型应用于898条同时含有HA和NA并且能够感染人的禽流感病毒的蛋白质序列上,基于距离中心最近原则,先后两次运行最小生成树分类算法,得到了最优层次结构,相应地,选出了6条具有代表性的病毒序列。第四章的研究对象是癌症,通过将Logistic Regression算法和Random Forest算法进行组合,提出了一种新的混合模型——LR-RF模型,基于FWER错误测度的Bonferroni检验,将模型应用在两个乳腺癌DNA微阵列数据集上,筛选乳腺癌中差异表达的基因。通过十次重复随机试验,本文所提出的LR-RF模型的平均预测准确率达到93.11%,方差低至0.00045。当Random Forest算法中基因重要性评分进行排序时选取的阈值?=0.2,预测准确率达到最大值95.57%,并且筛选出来的差异表达基因数量相对较少。另外,建立差异表达基因的相互作用网络,通过分析基因相互作用网络,可以发现本文选择的前20个基因中的大多数都涉及乳腺癌的发生与发展过程。这些结果都证明了LR-RF模型的可靠性和有效性。

其他文献

山杏种实性状与油脂特性的地理变异及其适宜性评价

本试验在前期全国山杏资源调查的基础上,通过科学的采样布点,于2015年在其全部分布范围内采集了75个地理种源样地的能够充分反映整体信息的山杏种子样品,并进行测定其种实性

学位

山杏油脂特性地理变异GIS适宜性评价

碱性水溶液中蔗糖单酯的制备、纯化及性质研究

我国蔗糖酯产品大多是复配型,杂质含量及灰分较高,蔗糖单酯含量低,质量较差。而日本三菱株式会社研发了各个系列的从1-16的亲水-亲油平衡值（Hydrophile-lipophile Balance,HLB

学位

蔗糖脂肪酸酯硅胶柱层析液相色谱分离纯化

纠正孩子挑食早餐的成功之路

案例描述:案例一、每天早上幼儿园都迎接着孩子们的欢声笑语,美好的一天在孩子们的笑声中开始了,健康的生活从早餐开始,孩子们陆续进班后整理好自己的物品、盥洗、聊天等等环

会议

膀胱内翻性乳头状瘤临床特点及术后膀胱灌注与复发风险的相关研究

目的总结分析膀胱内翻性乳头状瘤(IPB)患者的临床资料、膀胱灌注治疗方案及随访结果,探讨与IPB病人术后复发相关的危险因素,探究术后长期膀胱灌注的治疗意义,为高复发风险患

学位

膀胱内翻性乳头状瘤无复发生存率膀胱灌注危险因素

免疫复合物亚型预测糖皮质激素治疗不典型膜性肾病的缓解情况

目的:通过随访不典型膜性肾病(AMN)患者的临床数据,回顾性分析不同治疗缓解情况组中肾小球免疫复合物分布的差异,从而探讨不典型膜性肾病中免疫复合物沉积差异的临床意义及指

学位

不典型膜性肾病IgG亚型IgAIgM

“固本清源”治疗非小细胞肺癌患者症状变化及评价

研究目的和意义:分析“固本清源”理论指导单纯中医药干预非小细胞肺癌(Non-small Cell Lung Cancer,NSCLC)患者后症状变化情况及相关症状分布特点,基于症状积分变化探索基于患者报告的症状评价方法。更好得进行临床经验传承与中医药临床疗效评价。研究方法:采用自身前后对照研究,纳入36例2019年7月至2020年1月在林洪生教授门诊就诊、接受单纯中医药治疗的非小细胞肺癌患者。予中

学位

固本清源MDASI-TCM量表单纯中医药肺癌症状分级量表症状

气垫船进坞控制策略方法研究

气垫船是一种利用高压空气在船只底部和水面之间建立起空气垫的交通运输工具,又称作表面效应船。受气垫船航程所限,多数情况下需在坞载舰的协同配合下执行长航程的任务。因此

学位

气垫船进坞灰色预测理论航迹引导航速控制

大学英语教材和CET考卷的学术词汇覆盖率比较研究

大学英语教学改革前的英语教学一直被认为是通用英语教学,但目前仍缺乏实证研究去检验其学术性。伴随着大学英语教学改革而来的是大学英语考试(CET-4、CET-6)的改革。学术英

学位

CET大学英语教学改革学术词汇表大学英语教材比较研究

日光温室通风过程的数值模拟与信号分析

以内蒙古中西部地区为代表的北方寒冷干旱地区在冬季的农业生产过程中普遍采用“三立一坡”型日光温室为研究对象,日光温室内部环境的温度和湿度表现出与时间相关的函数关系

学位

日光温室自然通风离散时间信号处理内拱棚CFD

基于时空轨迹特性的敏感关系隐私保护

近年来,随着社会网络服务和移动智能应用的飞速发展,社会网络数据总量呈现了爆炸式的增长,由于数据在发布过程中存在隐私泄露的风险,导致用户人身财产安全遭到严重的威胁,因此敏感关系隐私保护作为社会网络中一项重要的隐私保护问题受到了政府有关部门的高度关注,也迅速地成为了数据库隐私保护领域的新兴研究热点。针对当前社会网络中敏感关系预测和保护过程中存在的推演机制简单、预测指标单一和保护方法不完善等问题,本文提

学位

轨迹敏感关系隐私保护时空特性信息损失

基于粒计算的疾病差异表达基因研究

其他学术论文