基于Hadoop的中医药数据存储管理平台设计实现

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:ioryfei913
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中医药技术在中国历史上发挥了巨大作用,实践证明其是疾病诊疗上行之有效的重要手段。如何结合现代信息技术和传统中医药知识,加速中医药领域的发展,促进中医药在实际临床中的应用,已经引起不同领域人士的广泛关注。数据的集中存储和管理是有效利用和研究中医药数据的前提,但经过长久的历史积累以及近年大数据时代的爆炸式增长,中医药数据的规模不断扩大,数据类型更是纷繁复杂。传统的关系数据库不具备处理海量数据的扩展性和应对多种数据模型的灵活性,不能很好地满足中医药数据存储管理的需求。因此本文对当前主流的大数据存储查询技术进行研究,选择了Hadoop平台上的HBase数据库和HDFS文件系统,并在其基础之上进行扩展开发。  针对中医药领域中广泛存在的半结构化文档数据模型和二进制对象数据模型,本文分别设计和实现了相应的存储方案。对于前者,通过将原始数据映射为列族数据模型,使得HBase数据库能够支持Json数据格式,可以随机访问和查询其内部字段,避免了频繁的反序列化操作。对于后者,本文将对象数据合并写入到HDFS上的文件中,利用HBase记录索引信息,并对更新和删除操作造成的过期数据实设计了相应的清理机制。该方法能够有效避免HBase大对象存储和HDFS小文件存储的弱点,达到较好的读写性能和较少的命名节点内存占用。  本文的另一核心关注点是中医药数据的有效查询和检索。由于HBase只支持基于主键的查询,对于非主键属性的查询需要扫描全表,不能满足交互式查询检索的需求。本文基于HBase协处理器机制实现了一种二级索引方案,并在此基础之上设计了基于二级索引的查询策略,能够支持同时存在索引字段和非索引字段的组合查询以及全文检索功能。同时使用查询解析技术增加类似SQL语言的查询语句,能够兼容多种数据模型。经实验验证,本文的二级索引和查询策略以10%左右的写入性能损耗显著地提升了查询速度。  综上,本文在数据存储和查询两方面对现有存储系统进行扩展和改进,提供对多种数据模型的支持和快速查询检索的功能,最终能够有效满足中医药数据的存储管理要求。
其他文献
随着网络技术的发展,网络规模越来越大,而且网络用户及承载业务种类与日剧增。用户需求不仅仅是网络可达性,而是针对不同业务种类从经济、性能方面提出不同的需求。传统互联
智能交通系统(IntelligentTransportationSystem,简称ITS)是将先进的无线通信技术、传感器技术以及计算机技术等有效地应用于整个交通运输网络,从而建立起一种在大范围内、全
搜索引擎技术给人们的生活、工作和学习都带来了非常大的影响,随着互联网上信息的不断丰富,人们在信息筛选上需要付出的时间也越来越多,如何应用语义匹配技术来优化搜索引擎
包分类问题是路由器、交换机等网络核心设备的关键问题,同时在高速防火墙、高速入侵检测等系统中也具有重要作用。下一代互联网提供的各种增强服务,如不同级别的服务、安全网关
挖掘机称重技术在工程中非常重要,准确的称重保证了货物装载和卸货过程中快速、有效。挖掘机在其工作过程中往往没有在线的计量装置和设备,工作人员的工作量计算常常以车次计量
随着XML (eXtensible Markup Language)数据已逐渐成为网络上信息的主要表示和交换标准,对于XML数据检索的需求越来越多。由于XML数据自身的特性,使得对XML进行数据检索面临
随着网络的发展,Internet上的信息量不断地扩增,这其中每天更新的信息就有数以万计之多。要在这样的一个庞大的信息库中找到自己有用的信息需要一个高效的检索工具来完成,而
随着P2P技术的大规模使用,基于P2P技术的应用消耗了大量的网络资源。由于P2P应用不了解底层网络信息,导致大量不必要的网络资源消耗。如果网络服务提供商(Internet Service P
在以往的网管建设过程中,网管接口测试经常被忽略,这主要体现在网管系统的引进过程中没有经过严格的测试,网管系统的质量无法保证,对全网网管系统的现状没有统一的概念,为网
正交频分复用多址(OFDMA)系统已经成为第四代移动通信的主流多址技术,将其与自适应技术相结合,能充分利用无线信道中的频率分集和多用户分集,提升无线通信系统的频谱效率。博