论文部分内容阅读
自二十世纪90年代开始,得益于全世界所拥有的巨大数据资源以及将这些数据资源转换为信息和知识资源的巨大需求,知识发现作为一个从大规模数据库中发现有用知识的过程,逐步发展成为一门具有广泛应用的新兴学科。但是目前知识发现的理论体系尚不完善,还没有形成一门独立完整的学科,而且知识发现的一般原理与针对特定应用领域的有效知识发现工具之间还存在着不小的差距。在这种情况下,本文系统地研究了知识发现已有的理论和概念,阐述了知识发现的整个过程模型,在分析已有的几种知识发现算法基础上,提出了两种知识发现新算法。 首先,介绍了知识发现的基本概念和技术。在论述知识发现处理过程模型的同时,介绍了知识发现的功能及其应用。 其次,简要讨论了粗糙集、神经网络和模糊集理论。介绍了已有的几种知识发现方法,如基于粗糙集理论的BP网络,模糊C-均值算法和最大化分类指标算法,并对这些算法进行了计算机模拟实验。本文提出了一种基于模糊集理论和信息增益分析技术的分类算法,并且由计算机实验证明此算法具有计算量小、无需事先确定分类属性个数且可得到较高分类正确率的优点。本文还提出了一种基于小波包的空间数据库聚类算法,它能有效地处理大型空间数据集合,灵活高效地发现任意形状的簇并成功地处理孤立点噪声,而且对于输入记录顺序不敏感。本文通过实验证明了此方法的对于大规模数据集的聚类效果。 最后,对全文研究工作进行了总结,对下一步研究工作做了展望。