论文部分内容阅读
随着信息技术的快速发展和人们获取数据能力的不断提高,数据流作为一种新型的数据模型出现在各种应用当中,如电信通话记录、网上交易的零售等。由于数据流是潜在无限的、连续快速的、随时间不断变化的数据序列,对其按照传统的模式进行挖掘已经不再可行了。因此如何高效、快速地挖掘频繁模式已成为数据挖掘领域的研究热点。本文对数据流以及不确定性数据流的频繁模式的挖掘进行了新算法的研究。首先,提出了一种基于位向量分解和哈希链表的数据流频繁模式挖掘算法。此算法将事务转化为位向量后进行分解,然后将分解后的值存储到哈希链表中,最后利用反单调性剪切掉不频繁的项目。重复以上步骤直到所有事务都不能进行分解。该算法没有候选项集的产生,并且利用反单调性使被分解的事务逐渐较少。其次,提出了一种基于位向量表和压缩树的不确定数据流频繁模式挖掘算法。此算法首先将不确定数据流转化为位向量表,同时,提出压缩树,即将带有不同概率的相同项目存储到同一个树结点上,大大减少了树结点的数量,并在树的每个叶节点上连接一个数组用来存储这条路径上所有项目的组合及其期望支持度。最后,提出了一种基于频繁模式挖掘的软件漏洞分析方法。该算法首先将收集的软件漏洞程序转化为软件漏洞序列,再将其进一步转化为软件漏洞项目集,然后,采用不同的频繁模式挖掘算法进行挖掘,将挖掘出的频繁软件漏洞赋予较高的优先级。