基于多核计算的分类数据挖掘算法研究

来源 :南京航空航天大学 | 被引量 : 4次 | 上传用户:longdc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前计算机制造工艺的飞速发展以及多核CPU芯片技术的日趋成熟,让我们进入了高速计算的多核时代。同时,在并行计算领域上,也由以往的多机并行慢慢转到多核并行上来,即多核计算的概念。这样不仅提高了效率,同时还是节约了很大的硬件开销,而且还是节能的,契合了节能环保的社会化主题。本课题把多核计算与数据挖掘技术结合起来,来实现快速高效的数据挖掘方法,主要对分类数据挖掘进行了多核化研究与探索。主要工作如下:(1) KNN方法虽然有很多优点,但是其致命的问题就是分类效率比较低。针对这一问题,本文运用多核计算技术对该算法作了多核化改进研究。从数据划分和任务划分这两个不同角度,本文分别提出了基于多核计算的MDKNN和MTKNN算法。MDKNN的设计思想是把单个任务处理的数据集分开,并在多个计算核心上并行执行,以此来提高执行效率。MTKNN算法主要是把整个分类任务看作一个整体,将单条记录的分类视为整体的子任务,算法的核心思想是把各个子任务在多核平台上并行执行。实验表明,这两个算法在保持原有分类正确性的同时极大提高了分类效率。(2)决策树方法最耗时的部分就是决策树结构的构建过程,本文利用多核计算技术对决策树的构建过程进行了多核改进研究,并在经典ID3算法的基础上提出了一种基于多核计算的分类算法MPID3。由于决策树的构建过程采用递归调用的方法,本文在多核并行实现时设计了一个任务队列,用于各个处理器核心的动态任务获取和添加。实验表明,该算法在保持原有分类正确性的同时极大提高了分类效率。(3)贝叶斯网络方法最耗时的部分就是贝叶斯学习阶段,本文利用多核计算技术对贝叶斯学习过程进行了多核改进研究,提出了一种基于多核计算的贝叶斯网络方法MPBN。在进行贝叶斯学习时,首先把参数学习的任务分配到多个执行核上,执行完成之后,再进行网络结构的更新。鉴于贝叶斯网络结构模型的建立比较麻烦,本文使用由Intel提出并发布的PNL库来创建网络模型。实验表明,该算法在保持原有分类正确性的同时极大提高了分类效率。
其他文献
随着互联网技术的快速发展,网络中的图像资源也得到爆发式的增长,因此如何迅速的在大量图像资源中找到用户所需资源逐渐发展成为一个重要的问题。另一方面,随着基于内容的图
机器学习算法在中药成分分析,成分与疾病关系的研究中一直起着重要的作用。利用机器学习技术对中药成分进行发掘是中药现代化的重要方法。本文主要研究几种机器学习算法的改进
在互联网高度发达的今天,信息技术渗透到了日常生活中的点点滴滴,互联网上几乎拥有人们所需要的全部信息。对于如何在海量的互联网信息中找到不同个体、单位所需要的知识提出了
基于摄像头的视线估计技术作为人机交互领域的一个重要分支被广泛的应用于各个领域。目前,大多数视线估计技术采用瞳孔角膜反射向量法,使用时需要额外的辅助光源,并且用户在
无线传感器网络的数据溯源是对数据包从源节点经多个转发节点最终传至基站的完整传输路径的记录、追溯与展示。为保证传输路径的可溯源性,现有的无线传感器网络数据溯源主要
近年来,无线传感器网络逐渐成为一个热门的研究领域。它的发展主要得益于无线通信技术和传感技术的发展。无线传感器网络是由大量的微传感器组成的,这些传感器节点能自组织地构
随着科技的日益发达,曾经只有电视台才能完成的视频制作因为各类视频剪辑工具的产生而变得简单且易于使用。从有人使用基于PC的视频剪辑工具开始,到基于Web的在线编辑工具的
随着信息技术的飞速发展以及各种数字技术的普及,用户对数据高可靠性、高带宽的要求进一步推动的存储技术的发展。传统磁盘阵列技术在带来高带宽的同时也很好的解决了因磁盘硬
在信息技术飞速发展的今天,企业的信息平台也越来越倚重网络,而Java Web应用系统也逐渐成为企业处理日常业务的中心平台。在Web系统的开发过程中,Web系统的访问控制尤其是Web页
随着半导体制造工艺技术的发展,DRAM与闪存的尺寸已经缩小甚多,但进一步缩小的空间不大,且其存储性能随着密度的提升而受到严重影响。在此背景下,研究开发理想的半导体存储器来解