论文部分内容阅读
随着Internet的迅速发展,大数据时代已悄无声息地到来,数据的规模较之过去已呈现出井喷式的增长态势,同时数据结构亦愈发复杂多变。在这样的情势下,由于传统的数据分析方法在时间复杂度和空间复杂度方面的消耗往往较高,直接导致了其在应对大规模数据挖掘规律时捉襟见肘。本文旨在将现有的序列模式挖掘算法PrefixSpan算法进行改进并应用于Web用户行为模式挖掘和序列模式挖掘中。本文研究内容如下:(1)对现有的序列模式挖掘算法进行比较分析。传统的PrefixSpan算法仍然需要花费大量的时间与空间来完成构建和扫描投影数据库的过程,以至于严重地影响了算法的执行效率。同时对Web序列模式中用户在实际浏览和访问过程中所体现的规律性和喜好程度进行分析。(2)提出了IPWRPIS算法,相比于传统的PrefixSpan算法,以序列代替项集进行扩展、放弃挖掘序列数小于阈值min_Support的投影数据库以及直接递归局部频繁项等方式为主要思想进行,并将其应用于Web用户行为模式挖掘中。实验结果表明,改进的算法不仅比PrefixSpan算法效率具有了一定的提高,还可以有效地获取用户访问Web页面的行为模式信息,对日志记录中的规律进行分析和研究。(3)提出了IPPSIFO算法,该算法以降低投影数据库的生成规模和削减扫描用时为基本思想,首先在投影数据库的序列生成过程中增加筛选修剪操作对非频繁项直接舍弃,其次在具体的投影处理过程中采用按序隔层的投影方式进行,从而实现优化算法运算效果的结果,并应用于Web序列模式挖掘中,算法效率有了显著提升。综上,本文针对PrefixSpan算法进行改进并分别应用于Web用户行为模式挖掘和Web序列模式挖掘之中,经过实验对比,改进的算法均优于经典PrefixSpan算法性能。然而序列模式的挖掘工作仍然面临着许多新的挑战,如何将本文的工作应用于更加广泛的实际应用中,还需进一步探索。