论文部分内容阅读
由于在大型数据库中存储的数据往往非常庞大,因此分析处理数据的工作越加困难。为了有效的从数据库中找出有用的资料,数据挖掘(Data Mining)技术应运而生。随着数据交换需求的与日俱增,半结构化数据(Semi-structured)XML文件蓬勃生长,原生型XML数据库中存放大量XML文件。如何挖掘出隐藏在原生型XML数据库里的知识或规则是本研究的一个重点。针对关联规则挖掘应用所面临的困难,分析了XML语言的技术特点,提出一种基于半结构化数据的关联规则挖掘模式。该模式充分利用半结构化数据源的自描述性、开放性和可扩展行方面的优势。近年来许多研究人员在从事数据挖掘相关技术的研究,其中被广泛讨论的议题就是在事务数据库中挖掘出关联规则。在对关联规则挖掘中基于Apriori算法的改进算法的深入分析和研究后,本文根据Apriori算法的不足,提出了一种改进策略,从而得到一种优化的Apriori算法。最后通过仿真实验表明该改进算法有效地提高了Apriori算法的挖掘速度。