论文部分内容阅读
信息技术的日新月异使得各个领域的数据量激增,大型、分布式数据库成为数据存储的主要方式。在此背景下诞生的知识发现和数据挖掘提供了一种新的认识数据、理解数据的智能手段,序列模式挖掘是其中的一个重要研究分支。经典序列模式挖掘算法大都致力于挖掘序列模式全集,降低了空间性能。挖掘闭合序列集合能在保持信息完备性的前提下,比挖掘频繁序列全集更加精简有效。本文着重对此进行了研究,主要研究内容如下:1.已有的闭合序列挖掘算法大多遵循由短到长、自底向上的挖掘模式,当支持度阈值较小或闭合序列较长时,时空性能显著下降。基于上述原因,本文提出InverClos算法,采用最小序列长度约束,实现从最长序列开始由长到短、自顶向下的倒序挖掘闭合序列模式。分析与实验表明,该算法较经典闭合序列挖掘算法CloSpan具有更好的时空性能。2.研究了基于剪枝概念格的闭合序列模式挖掘求解,提出基于同步剪枝概念格的闭合序列挖掘算法。同步剪枝概念格构造算法以属性插入方式动态地构造概念格,在插入属性构造概念格的过程中,依据Apriori性质实现剪枝,得到剪枝概念格。基于剪枝概念格挖掘闭合序列,减少了相应的搜索空间,提高了序列模式挖掘的效率。