基于正负项目及多支持度的关联规则挖掘算法研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:jiangchao1989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联规则作为数据挖掘的一个重要分支,目前已经在许多领域得到成功应用。然而,大多数的关联规则只考虑了事务属性之间的正向联系,对于隐藏在数据中的否定联系,却没有引起足够的重视。本文阐述了一种完整形式的关联规则,同时考虑了事务数据库中的正项目和负项目,不但能够反映事务属性间的正向联系,同时也能反映事务属性间隐含的否定联系。首先,本文针对引入负项目后,频繁项集数量也大大增加的问题,在详细研究了FP-growth算法的基础上,提出了一种改进的MFP_PN算法。新算法继承了FP-growth算法不需要多次重复扫描数据库的优点,同时考虑了正项目和负项目而不需要扩充原始数据库。另外,新算法沿用了FP-tree的结构,构造出同时含正负项目的Tree_PN,采用基于条件频繁后缀项目的模式扩展方法得到频繁项集,不需要构造大量的条件模式树,节省了时间和空间。实验结果证明了MFP_PN算法比FP-growth算法具有更好的性能。其次,本文分析了最小支持度的局限性和支持度过大的项目的有用性问题,提出了正负多支持度PNMS模型。该模型可以排除支持度过大的、没有意义的频繁项集,同时可以通过设置不同的正、负最小支持度阈值,来调节挖掘结果中正负项目的数量,以满足用户的不同需求。实验证明,PNMS模型在提高规则有用性和调节正负项目数量方面是有效的和可行的。
其他文献
无线传感器网络是由部署在监测区域内大量的、廉价的、具有感知能力的微型传感器节点形成的一个多跳自组织网络。随着它的广泛应用和产业化实现,其安全问题日益突出。本文首
近年来词的分布式表示与组合模型在自然语言处理领域中取得了诸多突破性的成果。词的分布式表示使用实值向量对词进行建模,可以从无标记语料库学到词的语法和语义信息,而组合
在多标签分类问题中,每个样本同时对应多个标签构成的标签集合。多标签分类问题与传统的分类问题最主要的不同在于传统的分类是假设标签之间两两互斥,而多标签分类中标签之间
1993年,Aharonov提出了量子随机行走的概念,相比于经典随机行走,量子随机行走具有更快的扩散速度。2003年,第一个量子随机行走搜索算法,即SKW算法,从理论上证实了量子随机行
许多经典问题都用图结构来表示,图结构与关系数据相比有着更强的表达能力。网络模体的挖掘是研究复杂网络的重要分析手段,网络模体是指网络中频繁出现的互相连接的子结构,其
高光谱遥感图像是由二维空间信息和一维光谱信息组成的三维数据。同时具有地物目标的辐射、几何和光谱信息,能够从光谱空间中对地物予以细分和鉴别,在资源、环境、城市、生态等领域得到了广泛应用。受传感器的空间分辨率限制和自然界地物复杂多样性的影响,使得单个像元中往往包含多种地物覆盖类型(如:植被、河流、道路等),从而形成混合像元。混合像元的普遍存在不仅影响地物的识别和分类精度,而且是遥感技术向定量化发展的重
最新的国际视频编码标准H.264是由ITU-T视频编码专家组(VCEG)和ISO/IEC动态图像专家组(MPEG)组成的联合视频组(Joint Video Team, JVT)在2003年提出的。因为H.264采用了许多
随着我国教育事业的发展,对外籍教师(以下简称”外教”)的聘请需求在扩大。但是,聘请外教的工作没有一个稳定的信息化平台,申请来华工作的外籍友人不能利用信息化手段主动求
可视化分析是社会网络分析一个重要的方法。通过对社会网络进行可视化的展示,人们不仅能够对网络的结构以及各节点之间的联系获得直观清晰的认识,并且通过可视化展示效果的处
随着互联网技术的迅猛发展,因特网已经渗入到人们生活的方方面面,对人们的生活和工作产生了积极深远的影响。然而,随着网络技术的发展,当今的网络变得愈来愈复杂并越来越难以