序列模式发现中关键问题的研究与实现

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:zsj_bj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据库知识发现(Knowledge Discovery in Databases,简称KDD)是当前涉及人工智能和数据库等学科的一门相当活跃的研究领域,序列模式发现是其中的一个重要研究方向。当前序列模式发现研究存在以下三个主要问题:①传统的序列模式发现算法(如AprioriAll算法等)需要多次扫描数据库,因而时间开销较大:②传统的序列模式发现期望挖掘出所有的频繁序列,整个过程缺乏针对性,时间代价高,结果数量巨大且难以理解;③在实际应用中,最小支持度的设置是一个敏感问题。本文针对这三个问题进行了研究。主要工作如下: 传统算法需要多次扫描数据库,因而时间开销较大。基于概念格扩展模型挖掘序列模式可以较好地提高时间性能。概念格扩展模型(ECL)适用于挖掘包括序列模式在内的各种知识。依据序列模式发现的特点和阈值,对ECL进行剪枝而得到的频繁概念格可以改善模式发现的时空性能。由于构造频繁概念格的时间性能是基于频繁概念格进行序列模式发现的关键,因此,本文提出了一种逐层构造频繁概念格的算法FL-Chein,仅需扫描数据库一次。在此基础上,实现了基于频繁概念格的序列模式发现算法SECLSP。 传统的序列模式挖掘发现所有的频繁序列,整个过程缺少针对性,时间代价高,结果数量巨大且难以理解。在序列模式发现中引入闭合模式概念,可以在信息不丢失的情况下减少冗余序列,大大降低结果的规模。本文抛弃了传统的升维的挖掘思想,从最长的序列模式开始挖掘,并采用了一定的优化策略,提出了一种有效的闭合序列发现算法Multi-pass CS。 top-k闭合模式是闭合模式的进一步扩展,而挖掘top-k闭合序列模式,可以解决传统序列模式挖掘存在的第三个难题——最小支持度设置敏感问题。基于Multi-pass CS算法的思想,本文提出了一种快速的top-k闭合序列模式发现算法TKCS。 基于上述研究,实现了一个原型系统。并从理论和实验上证明了所提出的算法对于解决上述三个问题具有一定的优越性。
其他文献
由于Internet的开放性和缺乏安全性的初始设计,使得Internet的运转时常受到各种安全威胁,黑客攻击也由早期的以系统攻击为主转变为以网络攻击为主。目前的安全解决方案,从本质上
随着软件工程体系的不断规范化和标准化,对软件质量的要求也越来越高。与此同时,软件测试作为软件开发生命周期中不可缺少的一个阶段也越来越受到重视,并形成了完整的测试技
在分布式通讯网络日益普及和发展的今天,任何两台相距遥远的计算机都可利用公众网络共享各种资源。但是这种数据的传输与交流给人们带来极大方便的同时,也提出一个问题:如何进行
学位
随着网络通信技术,多媒体技术,数据库技术的迅猛发展,多媒体信息急剧增长。而其中的数字图像信息应用日益广泛,并成为最主要的信息资源之一。在图像信息快速膨胀的今天,如何
在数据网络领域,IP网络技术正在演进,作为原有宽带通信网和新技术的ATM则由于技术难度大、路由灵活性较低以及效率不高等面临很大挑战,如何使ATM技术融入IP,如何将路由和交换相结
无线传感器网络综合了传感器技术、嵌入式计算技术、分布式信息处理技术和无线通信技术,能够协作地完成实时监测、感知和采集监测对象的信息,并对其进行处理,传送到需要信息的用
磁分离酶免疫分析测试仪主要用于对人体内分泌激素进行检测,根据激素指标的差异,为医生确定病人病情提供科学依据。目前,酶免仪已经成为医疗机构进行临床诊断所必需的医疗仪器之
当前众多的基于OSI的大型异构管理网络中,网管信息分散于各代理的MIB中,由于底层网络管理协议不同,这些网管信息的表现形式也不同,在传统的网络管理模式中没有统一的语义来解
在离散事件动态系统的研究中,逻辑层次的建模与控制是一个很重要的方面。由于Petri网的一些特点,例如真并发的语义、易于转换为计算机程序控制码、逻辑电路形式的硬件实现,因此