基于MongoDB的多源生物数据集成关键技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wangyuan1984
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生命科学不断发展,领域内产生了更多的研究问题和数据需求,使得生命科学研究产生了前所未有的数量和类型的组学数据,从而形成生物大数据。由于不同的研究技术,产生的数据格式也各不相同。面对海量异构生物数据的处理时,关系数据库的瓶颈问题显现出来—基于关系的固定模式和扩展性差。数据模式灵活的NoSQL数据库应时而生,通过水平扩展解决了大数据量所带来的数据模式变更,其中MongoDB应用最广泛。因此,急需解决多源异构数据库从各种数据格式映射到JSON格式的问题,然后存储到MongoDB上进行查询处理。本文主要研究了基于MongoDB的多源生物数据集成的关键技术,对多源异构的生物数据进行集成,并通过MongoDB的存储机制进行管理。本文将从多源数据源的关联模式发现、数据集成存储和数据管理三个方面进行研究。首先,确定选定的数据源及其数据格式,根据多层网络理论知识结合自动关联模式匹配算法,构建层间节点连接矩阵。然后,设计不同数据格式(结构化文本文件、XML、RDF和OWL)到JSON格式的映射规则和算法,并应用MongoDB对JSON进行存储。基于上述集成关键技术,本文研发了基于MongoDB的管理系统,其主要功能包括多源生物数据集成、数据格式映射模型、索引构建、关键字查询和高级查询功能的并结合MongoDB的非主键索引构建,提高数据的查询效率。最后,通过一系列来自实际数据源的实验,对本文提出的数据格式映射算法进行测试。实验结果表明,基于MongoDB的存储具有存储优势,其存储结构有效地减少半结构化格式的冗余标记,节省存储空间。
其他文献
膜分离技术具有高效分离、低能耗、无相变、无二次污染、设备稳定、操作简单的特点,已被广泛应用于能源、环保(水处理)、化工、冶金、食品、医药卫生和生物技术等领域。作为
<正> 曾仲作以海洋为题材的彩墨画,是他"外师造化,中得心源"的具体体现。笔者以为他的具体体现则贵在"破"与"立"二字上。 "破"字,它字面的原意是指完整的东西受到损伤而变得
1994—2003年,化学动力学领域的SCI论文共计4036篇。在过去的10年间化学动力学领域的论文数量从1994年的348篇增加到2003年的458篇,其间略有起伏,增长平缓(见图1)。 In 1994
“单片机应用技术”课程具有很强的技术性、工程性和实践性。根据学单片机的经验,主要介绍了郭天祥的51单片机系统,以及分享他的成功经验。 “Microcontroller Applied Tec
作为中医学的重要分支,岭南流派在外感证治上独树一帜。本文对相关文献进行整理,从岭南风土、人群体质等角度进行分析,"天热地湿,湿热相合"与"四时不正,愆阳所积"等动静相合
素质教育下高中信息技术教学致力于培养学生的信息技术素养和运用能力,对于其他学科知识学习和未来发展具有积极作用。为了提升高中信息技术教学质量,运用项目教学法来代替传
电力能源是维持正常生产生活必不可少的,保证电力能源的有效供给是保障民生以及促进社会各行各业稳定长效发展的重点。随着社会经济的迅猛发展,对电力能源的需求逐步增多,也
目的:探讨青少年网络成瘾与父母养育风格及生活事件的关系。方法:采用网络成瘾诊断问卷、养育关系问卷和青少年自评生活事件量表对2162名青少年学生测试。结果:筛查出46名网
"神经转向"是在后现代语境下提出的,运用神经机制诠释人的心智与空间的关系,超越"社会文化"与"生物神经"的边界,强调情感、身体、"非理性"等的主体特征,为人文地理学研究提供
针对当前应用于高中信息技术课堂项目式教学设计与项目教学法的本质涵义、流程等不匹配问题,为实现高中信息技术学科课程与项目教学法的理论层面的结合,进一步为项目教学法在高中信息技术课程的实践教学方面提供经验与建议,提出在高中信息技术课程的每一环节运用项目教学法。本文在理论基础研究阶段,首先利用文献法对国内外项目教学法和高中信息技术项目式教学的相关文献进行梳理。总结发现,已有的研究中,如何设计项目活动、如