多数据库中例外模式挖掘研究

来源 :广西师范大学 | 被引量 : 0次 | 上传用户：whlyxyx

【摘要】

：

数据挖掘(Data Mining)是人工智能与数据库领域当前研究的一个热点,引起了大量学者与专家的关注。数据挖掘有许多功能,比如关联分析、聚类分析、例外分析等,其中例外分析也称

【作者】

：

郭燕萍

【机构】

：

广西师范大学

【出处】

：

广西师范大学

【发表日期】

：

2007年期

【关键词】

：

数据挖掘多数据库例外模式模式评价

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据挖掘(Data Mining)是人工智能与数据库领域当前研究的一个热点,引起了大量学者与专家的关注。数据挖掘有许多功能,比如关联分析、聚类分析、例外分析等,其中例外分析也称例外模式挖掘,是数据挖掘的一个重要研究课题。一个数据库中的数据一般不可能都符合分类预测或聚类分析所获得的模型,那些不符合大多数数据对象所构成的模型的数据对象被称为异类(Outlier)或例外(Exception)。以前许多数据挖掘算法在正式进行数据挖掘之前都把例外对象当作噪声而将其排除在数据挖掘的分析处理范围之外。但是从知识发现的角度来看,在一些应用场合,如电子商务欺诈行为的检测,银行信用卡欺诈行为的检测等,那些很少发生的事情往往比经常发生的事情更有趣、更有研究价值。因此,例外模式挖掘是一项重要且有意义的研究工作。目前,例外模式挖掘的研究工作主要集中在单个数据库上。随着分布式数据库技术及计算机网络技术的不断发展,多数据库系统已经应用于现实生活中,比如一个总公司需要为分布在不同地方的多个子公司分别建立数据库,从而构成一个多数据库系统。总决策者需要分析分布在不同分支的多个数据库,从而做出更加合理有效的决策。从这些分布在不同分支的多个数据库中挖掘出的有些模式是仅被少数数据库强烈支持的,这样的模式也即例外模式,它们反映了子公司的个性,适用于决策者为这些少数的子公司根据其个性制定出特殊的决策,另一方面,这些例外模式也可能正是事物未来的发展方向,因此,多数据库中的例外模式挖掘也有着重要的现实意义。本文首先介绍了数据挖掘及多数据库中的数据挖掘的概念及现有的技术,并在现有工作的基础上,提出了一些新想法与新见解,并通过实验验证了所提出方法的可行性与有效性。本论文的主要工作分三部分展开:(1)在现有文献所研究的低选票例外模式挖掘的基础之上,提出一种基于数据约束的挖掘方法,该方法以用户的兴趣为导向,首先选择用户感兴趣的数据对象,然后分别在各个局部数据库中找出对应的数据构成新的数据库。在新的多数据库中,先局部挖掘各个数据库,得到局部模式集,再进行综合,得到最终的全局低选票例外模式。本文还用实验验证了该方法的有效性。(2)提出一种新的多数据库中的例外模式的定义——高选票例外模式,并提出一种挖掘方法。该方法主要用到了规则的聚类技术,一方面将相似的规则合并,另一方面将规则进行分类。聚类之后,在每个类中,我们先找出高选票模式,即选票数大于平均选票数的模式,然后再在高选票模式中利用方差能够反映数据波动程度的性质挖掘出最终的高选票例外模式。实验证明,我们所提出的方法是可行且有效的。(3)从客观和主观两方面分别分析了现有的一些对模式的评价方法,并提出对多数据库中模式评价的两种客观性度量。

其他文献

网络透视中的链路延迟分布推理算法研究

网络监测对于网络管理者来说具有十分重要的意义,但是对网络性能参数的直接测量在一些情况下是不可行的。网络透视作为一种有效的解决方法被提了出来,它根据端到端的测量结果

学位

网络测量网络透视延迟推理EM算法

冗余网关技术Non-Stop TCP的设计与实现

随着网络的快速普及和应用的日益深入，各种增值业务在网络上得到了广泛部署，网络短时间的中断就可能造成重大损失。因此，网络的高可用性HA日益成为关注的焦点。作为网络高可

学位

冗余网关传输控制协议局域网增值业务

面向中小企业的主动数据仓库

当今社会，越来越多的企业认识到，只有靠充分利用、挖掘其现有数据，才能实现企业效益最大化。大多数企业并不缺乏数据，而是受阻于数据冗余和不一致。传统的数据库应用系统是面向业务操作设计的，简化了具体操作人员的劳动强度，而企业的中高层领导却没有相应的系统。企业需要新的技术来弥补原有数据系统的不足，需要把已经广泛收集到的数据集成到数据仓库中，以便从业务数据中提取有用的信息，帮助他们在业务管理和发展上做出及时

学位

数据仓库ECA规则分析规则分布式Agent

Web服务的形式化模型的研究

随着Web服务数量的急剧增多,用户面临大量的服务选择。因此如何从众多功能相似的Web服务中高效地发现满足条件的服务,如何判定服务组合的正确性等问题,已成为业界研究的热点

学位

Web服务进程代数CCS形式化符号化互模拟

无位置信息传感器网络节点调度算法研究与实现

无线传感器网络由部署在监测区域内的大量传感器节点组成。传感器节点一般依靠电池供电,其电能有限,并且传感器节点一旦配置后,由于其工作环境等因素的限制就很难对电池进行

学位

传感器网络节点调度节能TinyOSTOSSIM

基于规则模板的Web信息抽取技术与实现

随着Web的快速发展，丰富的Web资源构成了一个巨大的全球信息仓库。如何从Web网站中获得想要的信息成为亟待解决的问题，因此Web信息抽取成为必要，Web信息抽取技术也成为当今的一

学位

信息抽取抽取规则规则模板蜘蛛程序

在线社会网络中基于属性的重叠社区发现算法研究与应用

研究表明,网络已成为现实世界中许多系统的存在形式,而大多数现实网络中都普遍具有一个共同特征,即社区结构。针对在线社会网络的众多研究方向中,有一个非常有商业价值的研究

学位

重叠社区发现在线社会网络属性社会网络动态属性标签传播算法

存在情感差异性语音的说话人识别算法研究

说话人识别技术被认为是最自然的生物认证技术,它是一项根据语音中反映的说话人生理和行为特征的语音参数,自动识别说话人身份的技术。传统说话人识别系统当使用者在平静状态

学位

说话人识别情感语音情感特征基音频率

基于等高线的真实感地形重建

等高线地图是用二维平面表示三维地形的重要工具，是地图学中最常用的地理要素。以等高线为代表的大量具备三维属性的二维数据转换为的三维直观图像已成为国内外学者的研究热点

学位

等高线地形重建拓扑关系三角网计算机模拟

基于P2P平台的自然语言搜索系统的研究

对等网(P2P)技术现在已经成为了人们研究的一个热门技术,BT、PPLive等P2P软件的使用日益频繁,新的应用也随着研究的深入而不断出现。本文就是在这样的背景下提出的,主要研究

学位

对等网搜索引擎自然语言分词拓扑结构文件系统

多数据库中例外模式挖掘研究

其他学术论文