【摘 要】
:
针对在分析型联机分析处理(OLAP)应用中频繁出现的数据密集型操作符——分组聚集耗时较多的问题,提出Cache友好的分组聚集算法对该操作进行性能优化。首先,为充分发挥列存储在
【机 构】
:
数据工程与知识工程教育部重点实验室中国人民大学,中国人民大学信息学院
论文部分内容阅读
针对在分析型联机分析处理(OLAP)应用中频繁出现的数据密集型操作符——分组聚集耗时较多的问题,提出Cache友好的分组聚集算法对该操作进行性能优化。首先,为充分发挥列存储在数据密集型计算方面的优势,采用基于开源的列存储查询执行引擎Supersonic,并在此之上设计Cache友好的分组聚集算法;其次,为加速查询的执行,使用并行技术,将单线程的分组聚集算法改为多线程并行的分组聚集算法。基于Supersonic设计并实现4种并行分组聚集算法:无共享Hash表并行分组聚集(NSHPGA)算法、表锁共享Hash
其他文献
针对传统特征选择算法无法处理流特征数据、冗余性计算复杂、对实例描述不够准确的问题,提出了基于粗糙集的数据流多标记分布特征选择算法。首先,将在线流特征选择框架引入多标记学习中;其次,用粗糙集中的依赖度替代原有的条件概率,仅仅利用数据自身的信息计算,使得数据流特征选择算法更加高效快捷;最后,由于在现实世界中,每个标记对实例的描述程度并不相同,为更加准确地描述实例,将传统的逻辑标记用标记分布的形式进行刻
针对聚类算法的聚类中心选取需要人工参与的问题,提出了一种基于拉普拉斯中心性和密度峰值的无参数聚类算法(ALPC)。首先,使用拉普拉斯中心性度量对象的中心性;然后,使用正态分布概率统计方法确定聚类中心对象;最后,依据对象到各个中心的距离将各个对象分配到相应聚类中心实现聚类。所提算法克服了算法需要凭借经验参数和人工选取聚类中心的缺点。在人工数据集和真实数据集上的实验结果表明,与经典的具有噪声的基于密度
极限学习机(ELM)因其泛化能力好和学习速度快而成为软测量的新方法,但当应用到铝电解工艺参数建模时,ELM通常需要较多隐层节点并且泛化能力较低。针对这一问题,提出一种基于改进极限学习机(IELM)的软测量模型。首先,利用粗糙集中的约简理论剔除输入变量中的冗余或不相关属性,以降低ELM的输入复杂性;然后,利用偏相关系数对输入变量和输出变量间的相关性进行分析,将输入数据分为正输入和负输入两部分,分别对
针对流量传输过程中能效优化的问题,提出一种面向网络能效优化的动态权重队列管理算法DW_WFQ。该算法在加权公平队列(WFQ)的基础上通过动态地分配各类业务流的权重,以更加灵活的方式分配各类业务流的服务速率,进而与连续流速度缩放模型的能效函数相结合,推导出了该调度算法的能耗模型并且对其进行了能效优化。通过Matlab仿真,进行了DW_WFQ、先到先服务(FCFS)和WFQ三种算法的能耗对比,仿真结果
创新同继承一样,是提升中医药服务能力的根本方略。中医药的继承与创新,离不开中医药经典理论原则的指导,也离不开名老中医学术经验的传承,更离不开现代科学技术的应用。创新
针对密度峰值快速聚类(CFSFDP)算法对不同数据集聚类效果的差异,利用谱聚类对密度峰值快速聚类算法加以改进,提出了一种基于谱分析的密度峰值快速聚类算法CFSFDP-SA。首先,将高维非线性的数据集映射到低维子空间上实现降维处理,将聚类问题转化为图的最优划分问题以增强算法对数据全局结构的适应性;然后,利用CFSFDP算法对处理后的数据集进行聚类。结合这两种聚类算法各自的优势,能进一步提升聚类算法的