后件为数值型属性的关联规则发现策略研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:resume_002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据挖掘领域中,关联规则是一种非常重要的技术.Apriori算法是其最经典的算法之一。关联规则从布尔型属性开始研究,发展到名称型属性。目前,数值型属性的关联规则已经成为该领域的研究热点之一。本文首先介绍名称型关联规则的概念、评价标准及相关技术,数值型关联规则的概念及相关技术,以及目前较为普遍的等深、等宽、聚类离散化方法,并对这三种离散化方法进行了分析比较,为动态离散化方法奠定基础。其次,重点介绍了Weka中的Apriori算法及K均值算法,为算法的实验做准备。本文研究的对象是后件数值型属性的关联规则,针对这种的关联规则提出从两个方向进行挖掘:由前件到后件和由后件到前件。由前向后的方法(ARClusterer)采用Apriori算法中挖掘频繁项集的方法先挖掘出规则前件,再根据最小支持度原则与聚类算法进行动态结合,挖掘规则后件。由后向前方法(Ahead)先分别采用三种离散化方法对末属性进行离散,并依据支持度对离散后的区间进行动态合并,从而挖掘出规则的后件,再到对应的实例集中挖掘前件。最后,通过实验把ARClusterer及Ahead的三种动态离散化方法挖掘出的结果与Apriori静态离散化方法(AprioriStatic)挖掘的结果进行对比分析,结果表明Ahead算法实现了随着支持度的不同离散区间动态变化的效果,挖掘出一些AprioriStatic算法中丢失的潜在信息,但并没有实现规则后件区间的可重叠性,而ARClusterer算法不但满足离散区间的动态效果还实现了后件区间的可重叠性。
其他文献
传统的垃圾邮件过滤技术利用邮件过滤器独立工作,所能获得的垃圾邮件信息较少,效率较低。分布式垃圾邮件过滤技术通过网络交换邮件信息来更加准确地识别垃圾邮件,能够很好地利用
软件缺陷是软件开发过程中的产物,也是攻击者发起系统攻击的切入点。攻击模式是从攻击者的角度研究软件缺陷的最好方式。在信息安全领域,软件缺陷与攻击模式的种类复杂、数量
随着网络技术和图像处理技术的快速发展,图像数据逐渐成为人们获取信息的重要来源,但这同时也带来了图像信息安全隐患问题。由于图像数据具有编码结构特殊、数据量大、实时性要
时空统计分析方法是处理大量数据、揭示事物内部规律的有力工具。海洋大气环境是一个典型的多维动态变化环境,由于时间维和高度(或深度)维的引入,数据量急剧增加。多变量大样
进入新世纪以来,随着信息技术尤其是无线通信技术的发展,一种具有独特网络特性的网络——机会网络走入了人们的视野。这是随着无线网络应用的逐步扩大到各个领域中,人们发现
网格是新一代的互联网,是一种新的信息基础设施。它将引发继传统因特网、WEB之后的第三次信息技术革命。将网格技术应用于铁路货物运输系统属全国首例。建立铁路网格平台,可
互联网的发展和广泛应用带来了网络安全问题,从而促进了入侵检测技术的发展。如今,入侵检测系统取得了长足的进步并获得了广泛应用,但仍存在一些问题。本文的研究内容是入侵
本文研究的传媒业务支撑系统(MBSS,Media Business Support System)是利用互联网为载体,在网上发行、传播的应用系统。该系统不仅为广大客户提供方便、快捷、丰富的商业信息,
随着信息技术的发展和网络带宽的提升,视频数据量成爆炸式增长。图像特征提取近年来成为图像研究的热点,在此基础上的视频中的文字是视频语义理解的重要信息来源。由于视频是
卷积神经网络(Convolutional Neural Network, CNN)是一种源于人工神经网络(Neural Network, NN)的深度机器学习方法,近年来在图像识别领域取得了巨大的成功。CNN由于采用局