论文部分内容阅读
信息技术的飞速发展为各行各业提供了方便快捷的问题解决方案。毫不例外,计算机技术和网络技术同样为医院信息化的建设提供了强大的支持。目前,我国的医院信息管理系统建设已经初具规模,大部分医院都已经将HIS系统应用于日常的医院信息管理当中。电子病历作为医院信息管理系统的重要组成部分,是病人从入院到出院的整个诊疗过程的完整记录。随着信息技术的不断发展,电子病历的数量与日俱增,医院内部和医院之间的电子病历数量是海量的,那么如何从海量的电子病历信息中及时的检索出我们想要的有用信息则成了一个急需解决的问题。伴随着HL7标准的不断完善和临床文档架构CDA的产生,XML技术在电子病历的存储研究方面发挥了巨大的作用。一份标准的电子病历文档可以理解成是一份格式良好的XML文件。对于海量电子病历的索引与检索就转变成了对于XML文件的索引与检索。云计算的产生为处理各种海量数据的问题提供了一种简单高效的解决方案。Hadoop是一个典型的云计算平台,它提供的MapReduce编程模型,被用来处理大规模的数据集。在集群模式下,具有高速,可扩展和并行性。Hadoop的产生,使得分布式程序的设计变得简单。本论文结合Hadoop、Lucene和Katta设计并实现了一个云平台下的海量电子病历索引与检索系统原型。借助于计算机集群进行海量电子病历的处理工作,方便医护人员快速的检索病历信息。论文主要的部分有:(1)对Hadoop平台,开源工具Lucene和Katta进行了详细的介绍,重点介绍了Hadoop平台和Lucene的相关技术和知识。(2)设计并实现了基于Hadoop和Lucene的电子病历分布式索引系统,可以快速的为海量电子病历构建索引。(3)实现了基于Katta的电子病历的分布式检索系统。论文最后,通过实验数据,验证了系统的可行性和有效性