论文部分内容阅读
数据库知识发现(Knowledge Discovery in Databases, KDD)是从大量数据中发现潜在规律、提取有用知识的方法和技术。近年来,数据库知识发现KDD受到了国内外的普遍关注,已经成为信息系统和计算机科学领域研究中最活跃的前沿领域。 本文以国家自然科学基金项目“管理决策中数据仓库与数据挖掘新技术研究”为背景,在深入调研与分析国内外知识发现与数据挖掘相关理论与应用和技术文献的基础上,归纳总结了该领域的主要研究内容和关键技术,详细评述了基于分类数据知识发现的相关理论与技术的研究现状、存在问题与发展趋势,利用UCI(Irvine大学机器学习数据库)数据库作为实验数据,主要研究了知识发现过程中以下几个问题:知识发现过程模型、知识发现的一种数据预处理方法——属性选择方法,数据挖掘算法与数据库的接口——数据抽取器,数据挖掘方法——多变量决策树和组合近邻模型。 本文的主要研究工作和成果为: 1.针对目前的知识发现过程模型在实际应用中存在挖掘周期长,对大型数据库的知识发现支持不够的问题,提出了基于数据抽取器的知识发现模型。在模型中,将知识发现过程分成数据预处理、数据抽取、数据挖掘和结果分析四个阶段。该模型利用标准的SQL语言构造数据抽取器,为不同的学习算法准备数据,可以加快知识发现过程,提高数据挖掘效率。 2.针对知识发现过程的预处理问题,研究了属性选择的理论和技术,提出了一种利用信息理论和概率论,结合了属性选择过滤法和打包法的属性选择算法,通过去除属性集中的不相关属性,降低数据维数,减少数据量,从而提高数据挖掘的精度,加快知识发现的过程。 3.针对知识发现过程的数据抽取问题,设计了数据库管理系统和数据挖掘算法的接口——数据抽取器。该接口利用一组基于SQL语言的数据抽取器实现为数据挖掘算法抽取必要的统计数据,避免了直接对大型数据库的数据进行调用,使得对大型数据库进行快速数据挖掘成为可能。并提出了SQL_C4.5算法,利用数据抽取器实现C4.5决策树的构建。 4.针对数据挖掘的多变量决策树问题,研究了构造多变量决策树的理论和方法。提出了一种利用线性判别法构造决策树的扩展属性,采用C4.5决策树的分枝准则生长树的多变量决策树算法。该方法能有效的减少决策树的复杂度,为多变量决策树的研究 国防科学技术大学研究生院学位论文提供了新的途径和思路。 5.针对数据挖掘的组合模型问题,研究了组合模型的理论和技术,分析了组合理论在近邻法的应用现状,提出了一种组合近邻模型的算法,该算法通过使用随机的属性子集组合近邻模型,提高了分类精度。 最后,本文设计了一个医疗数据知识发现原型系统。利用本文提出的知识发现过程模型和关键技术,完成了一个医疗诊断系统应用实例的知识发现过程,获得了较好的效果。 本文针对上述研究内容,进行了大量的实验研究和论证,结果表明,本文的理论。方法与技术正确有效,达到了加快知识发现过程,提高知识发现精度与效率的目的,实现了利用分类技术优化知识发现过程的目的,具有良好的实际应用前景。