论文部分内容阅读
当前,互联网正朝着移动化进一步发展,社交网络等新兴内容也在不断兴起,人们可以很方便地获取到想要的信息。正是随着上述新兴内容的不断发展,业务的形态变得多样化,每天产生的数据也越来越多。大数据有着不可估量的价值,数据间的关系也在企业的运营、决策中发挥着重要作用。所以研究和寻找有效的大数据存储管理方法,提供实时或准实时的大数据查询分析能力,成为一个亟待解决的问题。然而,在大数据以及高并发的数据读写请求的背景下,传统的关系型数据库瓶颈凸显,已经无法满足需求。而NoSQL即非关系型数据库能很好地解决上述问题,其中HBase(Hadoop Database)是一个典型应用。HBase为大数据的存储管理和查询分析提供了高效的技术和平台。虽然HBase提供主键的高效检索,然而其对非主键属性检索的支持并不是很理想,这导致了HBase的非主键属性查询效率较低,难以满足数据实时或准实时的查询需求。为此,提供HBase的面向非主键属性的高效查询,是目前HBase急需研究和解决的一个重要问题。论文对HBase非主键属性索引方法进行了深入研究,提出了一种分层式索引,其索引存储模型共分为两层。首先是第一层索引,实现基于HBase区域观察者模式的协处理器的第一层索引,索引结构采用改进的d-left计数布隆过滤器。通过第一层索引可以避免不必要的数据扫描和比较从而快速定位存储目标电子邮件数据的相关区域。其次是第二层索引,实现基于HBase区域观察者模式的协处理器的第二层索引,索引结构采用倒排索引。通过第二层索引在第一层索引定位的相关区域中继续查询目标电子邮件数据。最后,论文实现了该分层式索引并且经过试验证明,该分层式索引能有效地满足海量邮件分析应用中对非主键属性的查询需求。