论文部分内容阅读
随着云计算的日渐流行,云系统中的多重查询优化(MQO)逐渐成为学术界及工业界的研究热点。在常规的海量数据分析作业中,这些CPU/IO密集型的查询语句通常复杂、耗时并存在大量可复用的公共部分。如何在成千上万条类SQL语句中检测、共享和复用这些公共部分是一个极具挑战性的难题。以往的MQO解法大多基于启发式或遗传式算法,并不适用于当前语句数量巨大、持续增长的查询集场景。在本文中,我们提出了血缘特征Lineage-Signature方法,并开发实现了LSShare共享系统来解决云系统中回归查询集场景下的MQO问题。该方法基于语句的抽象语法树(AST)来抽取特征向量并据此计算特征值,通过构建查询集的特征值索引表来检测并复用多重语句间的公共部分。我们的原型系统LSShare建立在Alibaba的ODPS分布式海量数据处理平台上。我们的实验结果表明该方法简单适用且该系统高效可行。