【摘 要】
:
对国内外数据流离群数据挖掘研究情况分析可知,以往的挖掘算法还存在诸多问题。多数离群数据挖掘方法往往忽略了混合属性数据流的分类属性;简单的分类属性数据流离群数据挖掘
论文部分内容阅读
对国内外数据流离群数据挖掘研究情况分析可知,以往的挖掘算法还存在诸多问题。多数离群数据挖掘方法往往忽略了混合属性数据流的分类属性;简单的分类属性数据流离群数据挖掘由于没有采用合理的加权思想,挖掘出的离群数据偏差较大。这些问题的研究对金融欺诈检测、网络入侵检测、以及天气预报等风险控制领域具有重要的意义。文中首先提出了一种混合属性数据流离群点检测算法HDSOD,引入聚类参考存储数据流的概要信息,先对数据流进行分区,对于每一分区进行聚类,将聚类结果存储于聚类参考中,充分利用聚类参考的存储信息计算其代表度,以及与其相邻的聚类参考的个数,判断该聚类参考是否为离群参考对象,离群参考对象所代表样本点为可能的离群点。该算法在有限内存中有效的对混合属性数据流进行离群点检测。其次,提出了分类属性数据流的离群数据挖掘方法CFPOD-Stream。该算法定义了加权闭合频繁模式离群因子,通过动态发现和维护频繁闭项集来计算离群度,采用带有衰减因子的查询索引结构来处理数据的概念转移现象,有效地检测出离群数据。最后,将离群数据挖掘方法应用于软件漏洞分析,该算法对算法CFPOD-Stream进行改进,发现与离群事务相偏离的闭合频繁项集,用以解释其软件漏洞发生不频繁的原因。本课题使用C++语言对上述算法进行实现,使用现实数据集KDD-CUP-99和仿真数据集对文中提出的算法进行测试,通过对不同处理结果的对比分析,所提出的算法在解决各自的问题上是有效的。
其他文献
现代企业资源具有分布式、异构性、跨领域协同工作等特点。在企业信息化建设过程中,由于业务的复杂性和计算机技术飞速发展,许多信息系统的开发缺乏整体规划和系统性,不同时期构建的业务系统可能基于不同的操作系统平台和数据库技术。因而各个系统之间很难有效地实现信息共享和交互,形成了“信息孤岛”现象。随着电力市场的发展和协同业务开展的增多,“信息孤岛”式的系统已经不能满足企业发展的需要,迫切需要研制出一套真正的
随着Internet的快速发展,越来越多的软件运行在开放、动态、多变的网络环境下,软件的形态也在不断演化,这使得针对运行时软件的信任管理变得更加困难。开放网络环境下的软件通常
由于各种通信网络的迅速发展,多媒体技术已经广泛融入人们的日常生活中。其中,视频压缩技术是目前应用最为广泛的多媒体技术之一。最新的H.264/AVC视频压缩标准中采用了许多
在深入分析了Windows家庭服务器操作系统之后,编程实现了一整套专门针对家庭服务器的远程控制下载软件,为充分发挥家庭服务器的内容存储和分享提供了坚实的基础。本远程控制下
无线胶囊内窥镜的问世是消化道无损诊断的革命性创新,随着临床应用的展开,产品的局限性逐步体现出来。其中,运动和姿态控制是迫切需要解决的问题,要实现运动和姿态控制,必须先知道
随着信息化的发展,信息系统的安全越来越重要,保护数据资料防止泄密更是信息安全的重点。数据防泄漏技术是防止信息泄密的重要手段之一,其目的是采取技术和管理手段防止信息数据
节点位置信息是无线传感器网络应用必不可少的元素,是事件位置报告、目标追踪、地理理由、网络管理等功能的前提条件。为了提供有效的位置信息,无线传感器网络节点必须在随机
疾病智能分析系统是典型的临床决策支持系统,是人工智能研究领域非常活跃的分支。疾病预测模型是疾病智能分析系统的核心部分,采用机器学方法依据医学数据集构建疾病预测模型,在
本文主要研究了采用基于安全套接字层(SSL)协议的VPN技术构建云南中医学院校园远程访问系统的方法和过程。SSL VPN是虚拟专用网技术领域中的一种较新的技术,在当前有着相当广
当前人们生活对网络服务系统的依赖性日益增强。在这种强大的需求牵引下,催生大量新兴服务及服务模式,同时促使服务系统的后端数据中心基础平台经历并正在经历着一个从传统的物