论文部分内容阅读
本文首先叙述了数据挖掘软件的发展历史,分析每一阶段软件产品的优缺点,并将其与MSMiner(一个由中科院计算所信息智能国家重点实验室开发的多策略数据挖掘平台)相比较,以此展示了MSMiner的优点。接着详述了MSMiner的体系结构及主要使用的技术,然后又分模块介绍了各模块的主要功能。本文还重点研究了如何设计和实现一个面向对象的元数据模型,讨论了这种模型的优点及元数据是怎样在整个系统中起到核心的作用的;讨论了ETL在数据仓库中的重要位置,并对设计ETL工具模块要考虑的问题做了研究。以上这些问题的研究为数据仓库的建构提供了一个总体的思路,而建构一个易用、稳定的数据仓库正是进行联机分析处理和数据挖掘的重要基础。最后,本文对数据挖掘的两种基本算法:Apriori算法和B-P算法的计算机实现与优化做了探讨。通过大量的实验及几个应用的实例可以得出结论:经过计算机优化后的算法比原先的算法在大数据集的处理中有着更高的效率和更高的准确性。