【摘 要】
:
信息技术和测序技术的迅速发展以及人类基因组计划的推进为人类探索生命的奥秘提供了海量生物数据。面对海量生物数据,寻求高效低成本的分析方式是基因组学领域的难点之一。
论文部分内容阅读
信息技术和测序技术的迅速发展以及人类基因组计划的推进为人类探索生命的奥秘提供了海量生物数据。面对海量生物数据,寻求高效低成本的分析方式是基因组学领域的难点之一。核糖核酸(RNA)在多种生物学作用中扮演着非常重要的角色,单链指导RNA(sg RNA)和N~6-甲基腺苷修饰(m~6A)是RNA序列功能识别中的重要问题。RNA序列功能识别研究将推动基因组编辑和表观遗传学领域的进展。单链指导RNA和N~6-甲基腺苷修饰的序列中都包含碱基位置信息、进化信息和模体信息,因此本文针对其序列特性提出不同的特征提取方法,并结合机器学习算法构建模型进行研究分析。本文具体的研究内容如下:在sg RNA靶向活性识别研究中,针对已有方法仅考虑序列的近程信息问题,本文提出位置特异性通配(PSM)特征提取方法。位置特异性通配方法通过结合位置特异性(PS)方法和Mismatch方法以挖掘出sg RNA序列的远程信息和进化信息。将PSM特征向量与极端梯度提升(XGBoost)算法结合,在两个数据集上构建相应模型,结果表明模型的预测性能较好,具备跨基因和跨细胞的泛化能力。特征分析结果显示重要特征大都涵盖Protospacer Adjacent Motif序列模式,表明PSM方法能很好的捕捉s g RN A序列中碱基位置信息和模体信息。针对sg RNA序列的不同区域片段携带信息的重要性程度不一致和数据集不平衡问题,本文提出基于双窗口的位置特异性通配(2w PSM)方法和活性支持向量机过采样策略(SCORE-SVM-SMOTE)。将2w PSM特征向量和支持向量机算法(SVM)结合构建sg RNA-2w PSM模型,利用SCORE-SVM-SMOTE方法平衡数据集进一步提升模型的性能,结果表明sg RNA-2w PSM方法的预测性能优于sg RNA-PSM和sg RNA-Ex PSM。通过热度图分析前后窗口特征的重要性以及序列上每个位置的碱基偏好性,结果能印证划分窗口策略的正确性和2w PSM特征提取方法的有效性,并对sg RNA序列中核苷酸偏好特性进行了探讨与验证。在N~6-甲基腺苷位点识别研究中,针对分词方法以及基于词嵌入预测方法的不完善问题,基于位置特异性通配方法、Kmer方法和RNA模体(motif)信息,本文提出Mismatch、Loop Variable Kmer和Motif分词方法,并利用词嵌入结合卷积神经网络构建四个单分类模型。采用主成分分析法对单分类模型进行RNA词关系分析,分析结果表明集成策略能进一步提升模型预测性能。本文使用加权集成策略构建Ensemble2Vec集成模型,其在两个测试集上性能都较优。
其他文献
异恶唑类化合物存在于多种天然产物及一些药物分子中,并且具有重要的生理活性和药物活性,在药理学、农业化学以及天然产物化学等领域有广泛的应用。另外,该类化合物也是一类
目的本论文以生物碱含量相差各异的多个罂粟资源作为研究对象,基于全基因组重测序数据,克隆得到了罂粟生物碱合成途径中的可待因-O-脱甲基酶(CODM)基因和牛心果碱差向异构酶(STORR)基因序列,通过对基因序列进行分析,初步获得罂粟CODM基因和STORR基因的所有序列;同时将STORR基因及其突变基因进行真核表达,体外酶活测定,对不同罂粟资源中生物碱积累差异的分子机制进行了初步探讨,为罂粟生物碱合
食品基质复杂多变,因此,在食品中有害物质检测过程中,需要采用适当的提取、富集和净化的方法对样品进行处理。QuEChERS技术具有快速(Quick),简单(Easy),价廉(Cheap),高效(Eff
水稻垩白是重要的稻米外观品质性状,对稻米的经济价值具有重要影响,对稻米的碾磨加工品质、蒸煮食味品质也有不利的影响。稻米垩白粒率(CGP)、垩白度(CGG)偏高是我国水稻生产中亟
近几十年来,化石燃料被迅速消耗,面临着枯竭的危险,因此混合动力电动车辆得到了广泛的关注。开关磁阻电动机结构简单且牢固,可以在复杂的工作环境环境下运行,又比永磁同步电机更具成本效益,因此成为很多人研究重点。研究人员相继开发出了无位置传感器控制方法和容错方案等用于解决开关磁阻电机的安全关键应用问题。同时,电机效率和振动问题也已经得到了很好的控制。而到目前为止,用于混动车辆的功率变换器的研究尚未成熟。针
一直以来,在分析电大尺寸目标以及处于复杂地形环境中目标物体的电磁散射情况时,都需要占用庞大的计算资源。本文从高频算法出发,利用基于表面电流法的弹跳射线法来分析机载
研究背景及目的手部肌腱损伤和手外伤在日常生活中尤为常见,不仅影响患者生理和心理健康,同时也极其严重地影响了患者的工作能力,造成了个人和社会巨大的经济损失。指屈肌腱
宿主与肠道菌群相互依赖、相互制约,通过长期的相互适应,达成一种动态的微生态平衡,形成了互利共生的关系。这种互利共生关系对于维持宿主健康和生理代谢稳定,特别是肠道内环
随着我国各大城市餐饮行业的高速发展,中国废弃食物的年产量日渐递增,庞大的废弃食物垃圾处理量造成了我国“垃圾围城”的困扰,由于废弃食物垃圾引起的环境污染和资源浪费问题已经刻不容缓,目前国家已经开始重视餐厨废弃食物的无害化、减量化和资源化处理。国内各界学者和技术研究人员对于餐厨废弃食物垃圾处理技术的研究与应用正在不断推进,但这些研究大多是家用废弃食物处理与城市整体餐厨垃圾处理系统的研究,针对商用废弃食
大气颗粒物(PM2.5和PM10)已成为大气环境的主要污染物,对生态环境和人体健康有重大影响。研究表明,有毒物质As、重金属(Cd、Pb、Cu、Zn和Sn等)和二次气溶胶等污染物进入人体后对人体机能和器官有严重的致病危害。近年来,在国内外以有色金属冶炼行业为主的工业区域开展大气污染源解析研究发现,As的富集程度以及金属冶炼和二次气溶胶的污染贡献率远高于以其他工业为主的城市。在重点地区,为保护生态环