机器学习算法在东亚北方族群推断的应用研究

来源 :陕西师范大学 | 被引量 : 0次 | 上传用户:xm121
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着跨地域跨国犯罪活动显著增加,通过对案发现场的生物检材DNA遗传信息的深度挖掘进行未知来源样本的特征刻画已经成为近些年来的研究热点,其中族群推断是非常重要的研究方向。国内外已经发布了大量针对洲际、地理区域、国内人群区分的体系,其中大部分体系可用于刑侦鉴定,但对东亚北方人群的区分鲜有报道。因此,本文选择东亚北方人群包括中国北方汉族、日本及韩国人群进行区分研究,具体研究如下:1、对来自千人基因组计划的103份中国北方汉族样本、104份日本人样本和亚洲多样性计划的100份韩国人共307样本的428个SNP位点分型采用多元线性回归共线性诊断筛选出67个高信息量的AISNPs位点组合,采用随机森林平均降准分析筛选出42个高信息量的AISNPs位点组合。2、针对筛选出的67AISNPs组合,构建Softmax逻辑回归和支持向量机算法的两种族群推断模型;针对筛选出的42AISNPs组合,构建随机森林算法的族群推断模型。将上述三种模型用于中国北方汉族、日本及韩国人群的推断。3、对三个人群的各人群样本采用training:testing=8:2比例随机抽样划分、十折交叉验证两种方式进行上述三种模型的效能评估。8:2比例随机抽样划分测试三种模型的总体准确率分别为98.4%、96.7%、96.7%,5次十折交叉验证测试三种模型的平均总体准确率分别为95.19%、95.77%、94.53%。4、HGDP数据库和SGDP数据库共31份测试样本测试上述三种模型总体准确率分别为82.9%、80.5%、82.9%,本研究检测的山东、山西共997份样本测试上述三种模型总体准确率分别为81.1%、72.2%、76.1%。5、利用研究2中创建的族群推断方法对本课题组前期的27个SNP进行了验证,构建了 27AISNPs的Softmax逻辑回归、支持向量机及随机森林族群推断模型,8:2比例随机抽样划分测试三种模型的总体准确率分别为98.85%、97.3%、96.87%,5次十折交叉验证测试三种模型的平均总体准确率分别为98.16%、98.26%、97.7%,1287份测试样本测试三种模型总体准确率分别为95.96%、96.97%、95.73%。本研究建立的三种族群推断模型均可用于东亚北方三大人群的遗传推断,该方法的应用将显著提高复合扩增体系构建的效率,同时提高体系用于法医学鉴定的有效性和可靠性。42 AISNPs组合的位点数目较少更适于构建法医检测体系,在国内日韩人员聚集区有很好的应用前景,具有较高实际应用价值。本研究创建的族群推断方法在27-plex SNP的应用中取得了非常不错的效果。
其他文献
二维(2D)过渡金属硫族化合物(TMDs),是新一代微电子和光电子器件的基础材料。作为二维材料家族的重要组成部分,以宽的带隙可调性和较高的电子迁移率等独特优势成为过去十几年的研究热点。随着对材料研究的不断深入,研究人员发现庞大的二维TMDs家族中,存在着一类极其特殊的TMDs材料。它们除了具有众多优异的电学和光电性能之外,还具有非常新奇的磁性能,这类材料被称为磁性二维TMDs材料。近年来,因在自旋
学位
偏序是泛函分析中重要的研究领域.近年来,关于左星序的研究受到了国内外众多学者的关注.设A和B是Hilbert空间H上的幂等算子,左星序A*≤B等价于A*A=A*B且A=BA.在幂等算子之集中,若算子A,B关于左星序*≤的确界存在,则分别用A*∨B和A*∧B来表示A,B关于左星序*≤的最小上界和最大下界.易知,(Q(H),*≤)是偏序集.本文主要研究幂等算子关于左星序的一些相关性质,尤其是上下确界的
学位
激光器的发明至今已有61年,在这几十年间激光已经逐步发展成为我们生活中不可缺少的一部分。如今,激光在我们的生活中已经随处可见,从星空下孩子们手中拿着的激光笔,到神州飞船的点火器;从工厂里的激光切割机,到测量珠峰高度的激光测距仪,人们享受着激光发展带来的革新。脉冲激光由于峰值功率高、热效应低的特点,被应用在金属加工、生物医疗、测绘等各个领域。调Q技术是产生脉冲激光的方法之一,相比于其他类型的脉冲激光
学位
文中主要研究了由金属纳米圆环与金属纳米棒组成的二聚体中的等离激元耦合,以及由矩形空腔所构建的表面等离激元波导间的相互作用。当两个金属粒子彼此接近时,它们的等离激元场将会重叠而发生耦合现象,从而导致等离激元模式发生变化。此外,在金属纳米粒子二聚体中等离激元的耦合过程会实现场的增强效应,这对于捕获单分子、实现表面增强拉曼散射等效应是至关重要的。由此可见,二聚体是研究等离激元耦合效应的基本单元。论文主要
学位
在生物数学的发展过程中,反应扩散方程有着极其重要的地位,它被应用在许多领域.众多学者通过它建立相关数学模型来解决实际生活中的问题.本文主要研究了两类反应扩散方程.第一章通过介绍反应扩散方程的发展历程,引出本文的主要内容.第二章主要研究了一类在齐次Neumann边界条件下以恐惧效应的形式降低食饵增长率的具有Monod-Haldane功能反应函数的模型首先,给出了系统正解的先验估计,并对正常数解处的局
学位
当今社会,创新是发展的第一动力,而创新的关键在于有创新意识。数学教学作为培养创新思维的重要手段,如何提升数学教学效率是数学研究者关注的热点话题。在数学教学过程中,教师要想培养学生的思维能力,就应尽可能展示知识的发生与发展过程。思维导图作为一个有效,能够深刻启发思维,用于锻炼人们脑力与智力,也作为激发,统筹,整理,将思维线路可视化的有效工具,在高中数学教学中备受关注。以往有关高中数学教学的研究,思维
学位
使用金属卤化物钙钛矿作为吸收材料的太阳电池是目前最有前途的光伏发电技术。钙钛矿太阳电池的效率从2009年的3.8%迅速提高到现在的25.5%,这种出色的性能是基于金属卤化物钙钛矿优异的光电半导体性能,它具有优秀的缺陷容忍度,高电荷载流子迁移率、平衡的电子和空穴传输性能、高可见光吸收系数、可调的直接带隙、长的载流子扩散长度及特殊的双极性。因此钙钛矿太阳电池可以出色地完成入射光的吸收、光生载流子的激发
学位
被动调Q固体激光器由于具备低廉的价格、简易的构造、较高的峰值功率和单脉冲能量等优点,被广泛的应用于生物医学、遥感、科研等领域。可饱和吸收体在被动调Q固体激光器中具有举足轻重的地位。Cr:YAG晶体具有极高的稳定性和可靠性,且使用寿命长、使用简单、损伤阈值高,是目前市场上用于微片激光器的一种理想的被动Q开关。此外,随着科学技术的发展,一些新型的具有非线性光学响应的宽带可饱和吸收体也相继进入科研工作者
学位
近年来,肿瘤免疫治疗表现出了巨大的潜力,如备受瞩目的程序性死亡受体1(Programed death 1,PD-1)抑制剂已在多种肿瘤疾病的治疗过程中取得了很好的临床效果;细胞毒性T淋巴细胞相关蛋白4(Cytotoxic T lymphocyte-associated protein 4,CTLA-4)抑制剂作为第一种也是最常用的抗PD-1联合治疗药物,与单药治疗相比,CTLA-4和PD-1双重阻
学位
地球上生物生长所需要的能量与物质是由光合作用所提供的,经过该过程无机物将会转变为有机物,释放出人类生活所必需的氧气。在太阳光照射下,叶绿素分子吸收光能,经过电子传递,使钙锰簇合物将水分解为氧气和氢离子。科研工作者尝试构筑人工光合作用设计出各种各样的新型材料,希望可以更加有效地利用太阳能。其中捕光色素/无机半导体光催化体系因廉价易得、绿色环保等优势,成为广受关注的人工光合作用体系之一。二氧化钛材料作
学位