分布式关联规则挖掘算法的研究及应用

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:qdmarie
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据库和计算机网络技术的广泛应用,许多大型数据都以分布式形式存储在分布的数据库中,如何从分布的数据库中挖掘有价值的知识是一个具有挑战性的研究课题。关联规则挖掘是数据挖掘的核心任务之一,它在政府、金融、电信、保险业、市场营销、异常监测、网络安全、科学决策等方面具有十分重要的应用价值,因此受到研究人员的高度重视。本文就提高分布式关联规则挖掘算法效率,降低挖掘过程的通信代价,建立高效智能的分布式关联规则挖掘模型,实现基于分布式数据挖掘的财政决策分析系统等问题进行研究,主要体现为以下几个方面: 1、提出基于频繁闭项集的FCDM算法。对数据挖掘中经典的数据结构FP-Tree进行深入的研究,并基于堆栈技术对FP-Growth算法进行改进,提出了VFP-Growth算法,该算法能避免原算法需要对每个后缀模式递归构造FP-Tree的开销;在VFP-Growth算法的基础上实现对频繁闭项集的挖掘,提出了V-Close算法,该算法可在保留完整频繁信息的前提下,采用自下向上搜索的方式进行剪枝,从而较大比例地压缩挖掘产生的项集数,节约存储空间;最后,在上述两个算法的基础上,提出了基于频繁闭项集的FCDM算法,该算法在局部站点采用V-Close算法来发现局部频繁闭项集,并设立一个主站点进行频繁闭项集的交换和项集全局支持度的计算。实验表明,该算法比传统的分布式关联规则挖掘算法FDM的计算效率有较明显的提高,加速比明显增快。 2、提出基于抽样技术的D-Samlpling+算法。该算法通过计算1-项频繁距离的抽样策略来修正用于抽样计算的样本,使得样本能更准确代表数据库的整体特征,接着提出了一个可根据挖掘结果进行动态自适应调整的估计频繁项阈值,提高了挖掘过程的智能控制程度;算法中还提出一个分布式站点抽样过滤策略来对某些局部站点产生的估计频繁项集进行过滤,进一步裁剪掉部分估计频繁项。算法在局部站点使用VFP-Growth对样本进行挖掘产生估计频繁项集,在主站点通过元学习法对各局部站点产生的估计频繁项进行再学习来产生全局频繁项。实验证明,该算法比传统的分布式抽样挖掘算法D-Sampling的计算效率有所提高。 3、提出一个基于MAS和知识库的分布式数据挖掘模型。该模型根据所承担任务及功能的不同,分别定义并实现了用户界面Agent、数据挖掘Agent和决策Agent,各种Agent之间采用基于合同制的通信协作模式,通过招投标方式来确定挖掘任务的承担者;模型中引入了知识库的概念,充分利用已有专家知识来指导挖掘过程,在启动挖掘任务时,采用先验证后挖掘方式对挖掘请求进行验证,产生挖掘结果后则使用中断协调器在知识库中对挖掘结果进行检查,从而保证挖掘结果与已有知识更好地融合;模型还提出一个基于分类权重的知识集成方式,将各个局部站点产生的规则进行分类后,按站点重要程度不同给予加权后再进行整合,从而使最后产生的规则更好地反映实际应用的要求;最后,给出一个分布式数据挖掘模型的工作流程,该流程能充分融合已有知识,发挥MAS的智能性,挖掘效率高、可扩展性好。 4、将分布式关联规则挖掘算法和模型应用到当前电子政务的重点研究项目财政决策分析系统中,给出系统的设计和实现,介绍了财政部门预算主题的关联规则挖掘过程。
其他文献
随着网络的迅速发展,搜索引擎成为了人们掌握知识的利器。但目前搜索引擎存在覆盖范围小、精度低、智能程度低和缺乏个性化等缺点,无法面对专业领域高质量的信息检索服务的要