论文部分内容阅读
随着Internet应用的不断深入,网络已经成为人们日常生活中的一个重要组成部分。每天承载着我们活动信息的海量数据,在网络中不停的流动、交换。这些记录人们网络行为的数据中隐含了上网习惯、个人爱好、所属社团等特征信息,而这些特征信息是无法直接得到的。网络行为特征分析技术可以帮助我们从海量、多样的数据中挖掘出这些特征信息,利用这些特征信息,我们可以识别恶意攻击行为,提高网站个性化服务的层次和效率,完善政府、科研机构的决策支持系统。 本文从如何将数据挖掘技术应用到网络行为特征分析的角度出发,在对数据挖掘领域的最新研究成果进行了系统研究和总结的基础上,结合网络行为特征分析的特点,围绕着关联规则挖掘技术应用、网络行为特征分析系统实现这两个方面进行了深入细致的研究,取得了若干创新和成果。 1.本文提出了一种基于多维事务线索树(MTT-tree)的多维关联规则挖掘算法,并将其应用到了网络行为特征分析中。该算法在事务数据库压缩成的多维事务线索树上进行多维关联规则挖掘,节省了内存空间,只需要扫描一遍事务数据库,提高了算法的性能。同时,利用保存了历史数据的MTT-tree,实现了增量式的多维关联规则挖掘。 2.本文针对传统关联规则挖掘模式易产生大量冗余规则的缺点,将约束引入到关联规则挖掘的过程中,结合MTT-tree算法,建立了一个交互式的挖掘模型。该模型分别在频繁模式发现阶段采用了基于维信息的数据约束,在关联规则生成阶段采用了基于兴趣度的规则约束。该模型提高了挖掘算法的针对性,缩小了挖掘范围,提高了挖掘的速度,同时,减小了生成的关联规则的冗余度,使生成的结果是更加有效、更加有趣的规则。 3.本文给出了网络行为特征分析系统的步骤,初步设计并实现了一个基于MTT-tree算法的网络行为特征分析系统。该系统能够对海量、多维、增量的网络节点数据进行高效率的处理分析。同时,采用了交互式的关联规则挖掘模型,提高了用户的参与度和挖掘结果的有效性。