最大频繁项集挖掘算法的研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:bvhd5467h
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的高速发展,各行各业所产生的数据量呈爆炸式增长,但是与之相反的是人们在预测行业前景的时候却不能参考足够的、有价值的规律。所以,从海量数据中挖掘出有价值的信息成为了目前的一个研究热点。数据挖掘是当前人工智能和数据库研究领域的重要组成部分,其中关联规则挖掘又是数据挖掘领域的一大分支,关联规则挖掘旨在挖掘不同事务、属性间的潜在联系。本文的研究重点是关联规则挖掘中的最大频繁项集挖掘,本文基于原始数据库和最大频繁项集的不同压缩结构,从优化剪枝、搜索策略、超集检测等多方面对最大频繁项集挖掘问题进行了深入研究与分析,主要内容包括:对经典的最大频繁项集挖掘算法FPMAX进行了改进研究,提出了一种高效的最大频繁项集挖掘算法。该改进算法采用了一种新的数据结构TB-tree来压缩数据,并采用了B-list数据结构来表示项集,从而实现了项集间高效的求交集运算以及各项支持度的快速计算,该算法采用了针对全序搜索树的深度优先搜索策略,同时也引入了父等价剪枝技术来缩小搜索空间,最后结合了基于MFI-tree的投影剪枝策略来进行超集检测,从而保证了算法准确性。实验结果表明,该改进算法在保证挖掘出的最大频繁项集准确性的前提下,具有较高的挖掘效率。对目前较为高效的最大频繁项集挖掘算法NB-MAFIA算法进行改进,提出了一种在时间效率和空间效率方面均表现良好的最大频繁项集挖掘算法。该改进算法采用了PPC-tree结构来对数据库进行压缩,然后采用了一种新的数据结构DiffNodeset来实现对各项集进行求交集计算,本算法的关键是引入了一种新的线性连接方法来降低求2-项集DiffNodeset时的复杂度,同时采用了差集计算的原理来生成k-项集DiffNodeset,这在很大程度上提升了算法的运行效率。然后采用集合枚举树作为搜索空间,并采用了多种优化剪枝策略来缩小搜索空间。最后结合了MAFIA算法的超集剪枝策略来保证了算法的准确性。实验结果表明,该算法在不同类型数据集中进行最大频繁项集挖掘时均有良好的效果。
其他文献
由于国家经济不断发展,上市公司经营面临一系列的问题,通常情况下这些公司会采用公允价值来进行盈余管理,而往往内部控制是否完善是其关键影响因素。部分内部控制存在缺陷的
【正】全面提高教师队伍素质,任重道远强教必先强师。我国现有1700万名教育工作者,其中各级各类学校专任教师有1390多万名。他们是推动教育事业科学发展和提升教育品质的重要
<正>肿瘤病人的特点主要是病程长,病情重,往往需要4~6个周期的化疗。长期的营养支持和大量液体输入,化疗、高营养和高渗液体的输入对外周静脉损伤人,若不慎外渗,后果严重。经
会议
论述博物馆本体的发展趋势,通过对龙江地域文脉的解读,从“寓意无形”的形体创作角度对黑龙江省博物馆建筑创作进行阐释。 This article discusses the development trend o
各位代表:$$受自治区人民政府委托,现将西藏自治区2019年预算执行情况和2020年预算草案提请自治区十一届人大三次会议审议,并请自治区政协各位委员和列席人员提出意见。$$一、20
报纸
随着无线通信技术的迅猛发展,频谱资源面临严重短缺的问题,研究高频谱效率的通信技术尤为必要。同时同频全双工通信允许通信双方同时在相同的频段上传输数据,理论上频谱效率
利用分布反馈式二极管激光器为光源,搭建了一套2μm波段的离轴积分腔输出光谱装置.利用高纯甲烷气体,测量了腔镜反射率随腔内气体压力变化的规律.当腔内压力为3.59 k Pa时,标
本文主要对舟山市饮用水水源地保护管理进行了研究,为应对水源地保护问题,舟山市现行的保护管理体制为“城乡供水一体化”,即由市统一管理本岛城区五个区段的供水,其他区域供
中国改革开放以来经济发展最明显的特征就是持续了40年的经济高速增长,我国经济高速持续的增长引起了全世界学者专家的广泛关注,试图解释“增长奇迹”发生的原因和动力。我国
为实现可持续发展战略和天然气长久稳定供给,近年来,我国逐渐从传统的近海天然气开采向深海浮式LNG开采过渡。印刷电路板式换热器(Printed circuit heat exchanger,PCHE)具有结构紧凑、耐低温和高压、传热效率高等优点,是浮式LNG液化船中液化设备的首选主换热器。为了获得超临界天然气在PCHE内流动与换热特性,本文采用超临界甲烷和超临界混合物作为流动介质,研究半圆形直通道的