tag SNPs智能识别算法研究

来源 :福建农林大学 | 被引量 : 0次 | 上传用户:zj5536
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
SNPs(单核苷酸多态性)为研究人类个体间患病风险与药物反应的差异和研究多基因复杂疾病提供了新方法。为寻找变异区域,理论上应对全部SNPs位点进行基因分型。传统的方法效率低且费用昂贵。研究发现序列中的标签SNPs—tag SNPs携带了 SNPs数据集的绝大部分遗传信息,因此寻找tag SNPs意义重大。但从SNPs数据集中找出tag SNPs需要耗费巨大的计算量,机器学习方法是解决这一问题的有效途径。对tag SNPs的寻找是一种组合优化问题。有文献提出应用集合覆盖方法成功地解决了小数据集上tag SNPs寻找的组合优化问题。但对于复杂的集合覆盖问题,现有算法难以得到优化解。鉴于蚁群算法有较强的近优解搜索能力,本文提出了基于罚函数的集合覆盖蚁群算法(PCACO)和具有随机扰动特性的集合覆盖蚁群算法(RCACO)用于tag SNPs搜索。但标准ACO算法易陷入局部最优,且全局搜索时间长,本文进行了以下改进:(1)在PCACO算法中,通过设定信息素浓度范围来避免信息素的过分集中或分散,从而改善全局搜索能力。(2)引入罚函数,在迭代过程加入与高斯曲线相吻合的惩罚因子来避免算法陷入局部最优,并提高了针对tag SNPs搜索的收敛速度。(3)采用了随机扰动的转移策略,实现了基于随机扰动ACO算法(即RCACO)用于tag SNPs搜索。算法的主要改进有:一是针对tag SNPs搜索问题设计了相应的随机选择策略和扰动策略;二是提出符合倒指数曲线的扰动因子。与PCACO算法相比RCACO算法进一步提高了 tag SNPs搜索的精确度。(4)根据SNPs位点间的连锁不平衡特性,对高维小样本数据进行K-means聚类处理,降低了搜索空间,从而提高海量SNPs数据关联分析的工作效率。上述工作对基于ACO算法的tag SNPs获取方法进行了尽可能深入的研究,提出了将ACO算法应用于集合覆盖的两种不同策略,并实现了对高维小样本数据的聚类。在模拟数据集上进行的算法实验结果表明,与近两年的PSO、GA两类算法相比,所提出的算法运行时间较短,且搜索结果精确度更高。
其他文献
忆阻的概念自1971年被提出至今已有近45年的发展历史。自2008年以来,忆阻器在仿生物突触方面的研究已取得很大进展,绝大多数研究工作都致力于通过忆阻器来实现模拟人脑记忆和
为了提高生物质资源利用率,同时开发低毒无害的果蔬保鲜剂,本实验以生物质热解液为主要的实验材料,进行了生物质热解液和壳聚糖对辣椒炭疽病菌的抑菌实验和复合保鲜剂的配制,
研究背景与目的:非酒精性脂肪性肝病(fatty liver disease,NAFLD)是指一组因机体代谢紊乱所致的以肝细胞脂肪变性为主要特征的临床病理综合征。NAFLD在早期是可逆的,发病进展
量刑偏差现象的显著表现在于“同案不同罚”,这一现象的存在势必影响司法权威和社会的公平公正。通过比较审判实践中的相似案例发现,基准刑是影响量刑偏差的关键因素。在研究基准刑的相关问题时,明确界定基准刑的概念十分必要,不能将基准刑和量刑基准混同。现阶段我国基准刑确立存在的主要问题有:一是部分犯罪量刑起点的适用范围过于宽泛,法官难以准确确定量刑起点;二是用于调节量刑起点的犯罪事实过于随意,相似罪名之间对其
植物黄酮是一类结构和活性复杂多样的重要次级代谢产物,在医药、农业和食品加工领域具有广泛的用途,但低溶解性和低生物利用度等特性限制了黄酮功能的发挥。微生物转化可在温
冰结构蛋白是一类生物体为抵御外界寒冷环境的应急反应过程中而产生的多肽,具有热滞活性、阻止冰晶形成、修饰冰晶形态及抑制重结晶的能力。本文以“肇东”紫花苜蓿干草为原
强化学习是机器学习领域中的重要分支。强化学习通过与环境交互获得奖赏信号,使期望奖赏最大化,以获得最优策略。根据行为策略与目标策略是否相同,强化学习方法可分为同策略
结合了深度学习和强化学习,深度强化学习(DRL)在许多领域得到广泛的应用,是目前机器学习领域的研究热点。DRL算法利用深度学习对输入数据进行特征提取,而后强化学习以特征信
滑坡自然灾害是全世界最为常见的地质灾害之一,在我国每年都会因山体滑坡而造成经济上的重大损失。多数山体滑坡的发生,都伴随着对生态环境、物种资源的严重破坏,有时更是危
目的:金黄色葡萄球菌(简称金葡菌)是引起食物中毒的常见致病菌,在公共卫生学上具有重要意义,家禽、蛋及肉类产品是金葡菌的主要传播媒介,严重影响着养殖业的发展和人类健康,