不确定频繁闭项集挖掘算法研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:llizhixiong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展和科学技术的不断进步,各行各业都出现了海量的数据,这些数据是传统的技术所无法处理的。例如在经济、金融、电信等行业都出现了海量的数据。在这样的大数据背景下如何挖掘出有用的知识变得越来越有意义。它可以有效的解决当前数据丰富而知识匮乏的问题。挖掘频繁项集一直以来都是数据挖掘技术中的重点问题。挖掘得出的频繁项集可以更好的指导更有效的方案的制定。例如经典的啤酒和尿布的案例。然而数据挖掘的结果往往不尽如人意,由于海量的数据以及支持度较低的时候挖掘出的频繁项集的数量和关联规则的数量往往也是巨大的,显然这不是我们想要的结果,一般的解决思路就是让结果只产生更具有代表性的子集,例如挖掘最大频繁项集或者挖掘频繁闭项集,但是最大频繁项集将会丢失重要的信息,所以我们选择使用频繁闭项集来代替海量的频繁项集。近些年来,数据在传感器网络、卫星图像信息、Web应用领域、无限射频技术以及经济、物流、电信等应用中都表现出了一种不确定性。因此在不确定性数据集中如何运用数据挖掘技术变得十分迫切。然而目前经典的挖掘算法都是针对确定的数据集进行数据挖掘的。针对目前不确定性的数据集我们需要提出新的数据模型来应对数据的复杂性。本文深入学习研究频繁闭项集的挖掘算法之后提出改进策略,并且对当前广泛出现的不确定性数据模型深入学习,阅读大量文献之后提出了一种不确定频繁闭项集挖掘算法。主要研究成果如下:1、频繁项集挖掘的两种策略。深入研究学习了大量的频繁项集挖掘算法之后,频繁项集挖掘领域的经典算法主要有两类,一是Apriori算法以及以Apriori算法为基础的以层次迭代为策略来求取频繁项集的挖掘算法。该算法的主要的不足之处就是必须多次访问事务数据库和产生大量的候选项集,这无疑增加了大量的时空开销。二是FP-Growth算法以及基于FP-Tree结构的算法。该类算法采用深度优先遍历FP-Tree的策略,只需要访问一次事务数据库并且完全避免了利用候选项集的策略,时空效率得到了大大的提高。2、频繁闭项集挖掘的两种策略。用来代替频繁项集而出现的频繁闭项集的挖掘算法主要分为两类,一是类Apriori算法,二是类FP-Growth算法,在第二类算法中挖掘频繁闭项集效率最高的算法就是DCI_Closed算法,该算法提出这样的概念:生成子是保序的,并且证明得出每个闭项集都有唯一保序的生成子序列。利用这一性质来达到剪枝的目的,提高了的算法运行的时间效率。3、提出了一种改进的DCI_Closed算法,针对当前频繁闭项集高效挖掘算法DCI_Closed在挖掘过程中存在一定的不足之处,本文在DCI_Closed算法的基础之上提出了一种改进的DCI_Closed算法,在算法中引入共生项集和双生项集的概念,在构造FP-Tree结构的时候对候选的1-项集进行有效的剪枝操作,以此来提高算法的时空效率。4、提出了一种新算法U_DCI_Closed算法,不确定性数据集下挖掘频繁项集已经成为数据挖掘领域中热点问题,然而在不确定性数据集下挖掘最大频繁项集和频繁闭项集的算法并不多见。在深入了解不确定性数据领域中的数学模型以及认真研究频繁闭项集挖掘的经典算法之后,发现利用可能世界模型理论将不确定性事务数据转换为确定的事务数据,可以保留原先数据的不确定性,结合经典的闭项集挖掘算法DCI_Closed提出了一种新算法U_DCI_Closed算法,实验表明新算法能够在不确定数据集下高效的挖掘频繁闭项集。
其他文献
脱机手写汉字识别是计算机智能化领域的一项重要课题,近年来迅猛发展,在技术应用层面取得了一定突破。但是如何设计适应性更强的识别方法一直是影响其发展的难点。本文针对脱
电子商务的发展改变了市场竞争规则,企业可以利用新技术创新商务模式,突破现有资源局限,培育新的业务能力,发掘新的效益增长点,减少流通环节,降低商业运作成本,提升企业的核心竞争力
过去几年里,在对网络社区的研究中,众多社区结构发现方法,多是单纯地分析其平面拓扑特性。对于社区属性的深入分析,特别是对社区结构的空间和时间维度的分析,尚处于发展阶段
随着网络应用和统一通信技术的不断发展,即时消息和呈现服务已经成为网络服务中的一项基本业务。在具体实现上,呈现服务可以使用的协议、标准和规范比较多。基于SIP协议的SIM
随着计算机在多媒体技术和虚拟现实技术等方面的不断提高,3D模型在计算机辅助设计(CAD),机械工程和娱乐等各个领域的应用已经越来越普及。随着计算机图形硬件性能的提高和几
并行计算系统是计算机科学中的重要研究领域,作为并行计算系统中的重要组成部分,互连网络的性质对整个系统的性能在很大程度上起着决定性的作用。迄今已经有多种互连网络被提
在通信行业中,海量的客户数据被存储在数据仓库中得不到充分应用,这些数据中隐藏的信息不仅可以为决策者提供决策支持,还能为通信行业挖掘出潜在的客户,实现业务增值,同时通
数字图像处理的主要目的是提高图像质量、提高图像中的特征等以便人或者计算机的识别和分析。随着人类的需求的不断提高,图像处理的应用几乎在所有的科学研究、工程技术和人
随着移动互联网的高速发展,越来越多的移动信息终端被用于完成计算任务,如手机,上网本,平板电脑,掌上游戏设备等。和微型计算机使用的通用处理器不同,移动设备中大量采用定制化的嵌
随着互联网技术的飞速发展和大规模普及,基于互联网的各种开发应用已经进入到人们日常生活中的每个角落。与此同时,伴随着人们日益增加的互联网活动,网络信息安全变得日趋重要,原