【摘 要】
:
序列模式挖掘主要研究如何从大规模数据库中寻找具有时空序列特征的频繁模式。由于在海量数据库中进行序列模式挖掘是项耗时的工作,因此利用并行计算技术来加快挖掘速度是一
论文部分内容阅读
序列模式挖掘主要研究如何从大规模数据库中寻找具有时空序列特征的频繁模式。由于在海量数据库中进行序列模式挖掘是项耗时的工作,因此利用并行计算技术来加快挖掘速度是一个有效的解决方法。对并行序列模式挖掘算法的研究表明,诸如多计算单元之间的负载均衡问题、通信问题、空间搜索策略问题等,是研制高效并行序列模式挖掘算法的关键。本文针对这些关键问题展开研究,主要研究工作如下:(1)详细分析了现有并行序列模式挖掘算法的设计思想,指出影响并行序列模式挖掘算法效率的关键问题在于提供有效的负载均衡策略、通讯策略和空间搜索策略等,分析了现有算法在解决这些问题上存在的不足。(2)针对共享存储的并行计算环境,建议利用动态任务分配机制来解决负载均衡问题,基于局部并行剪枝技术来设计空间搜索策略,基于任务并行的计算模型来设计序列模式挖掘算法,据此设计了一种基于SMP系统的并行序列模式挖掘算法PFSPAN。理论分析和实验结果表明,PFSPAN算法能够有效地进行序列模式挖掘。(3)针对分布存储的机群并行计算环境,提出利用任务并行和数据并行相结合的方式来设计并行序列模式挖掘算法,采用基于前缀树传送的通讯方法,静态与动态任务分配机制相结合的负载均衡方法,基于先全局剪枝后项序扩展剪枝的两步剪枝空间搜索方法,据此设计了一种基于机群系统的并行分布式序列模式挖掘算法FPMSP,并对算法作理论分析和实验验证。
其他文献
脱机手写体汉字识别目前仍然是模式识别中最困难的问题之一,因而也是手写中文信息化的主要障碍之一,它的研究对汉字信息处理自动化及开拓新一代计算机的智能输入都有着重要的
极大数据集是指数据量巨大,以致于计算机内存不能全部容纳的数据集;极小数据集是指由于实验条件和实验代价等限制,导致获得的珍贵数据资源比较少的数据集。本文对极大或极小
随着Internet的不断发展,在网络发展中发挥重要作用的IPv4协议越来越显示出它的局限性,如IP地址短缺、路由表膨胀、安全问题和服务质量等问题。为了解决IPv4存在的问题,IETF研究
舆情是指在一定的社会空间内,围绕中介性社会事项的发生、发展和变化,作为主体的民众对作为客体的国家管理者产生和持有的社会政治态度。最直接、最快速地反映了社会各个层面的
域名系统是Internet的基础,IPv6的地址空间大,即插即用等新特点,引发了高效率解析大量地址,域名动态更新等需求,需要全新的不同于IPv4网络的域名系统结构。目前对IPv6的研究均把重
高精度几何模型的三维数据在网络上的传输对网络的带宽提出了很高的要求。对于高精度的三维网格模型数据的传输,传统的方式是将整个网格模型数据全部传输到客户端,采用这种方式
由于人类在地球上的密集活动范围及强度不断增大,影响了地震观测记录的质量,地震观测台网记录到的地震信号中包含了很多人工地震,如矿山爆破、地下核试验等。这些事件的记录,
廉价的CMOS微型摄像头及麦克风的出现和传感器网络技术的发展为多媒体传感器网络的发展奠定了基础。多媒体传感器网络具有感知媒体丰富、数据量大、处理任务复杂等显著特点,
动物机器人系统借助于脑机接口技术,将生物智能与机器智能融合在一起,在一定程度上实现了优势互补,成为混合智能研究的热点之一。相比于机器,动物在环境信息感知、能量的获取
目前动画技术已经深入渗透到众多领域。全过程计算机辅助动画自动生成是一个结合人工智能与现代多媒体技术的崭新课题,由中科院陆汝钤院士在国际上首次提出,并研制出原型系统《