基于分类模型的知识发现过程研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:zcznq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据库知识发现(Knowledge Discovery in Databases, KDD)是从大量数据中发现潜在规律、提取有用知识的方法和技术。近年来,数据库知识发现KDD受到了国内外的普遍关注,已经成为信息系统和计算机科学领域研究中最活跃的前沿领域。 本文以国家自然科学基金项目“管理决策中数据仓库与数据挖掘新技术研究”为背景,在深入调研与分析国内外知识发现与数据挖掘相关理论与应用和技术文献的基础上,归纳总结了该领域的主要研究内容和关键技术,详细评述了基于分类数据知识发现的相关理论与技术的研究现状、存在问题与发展趋势,利用UCI(Irvine大学机器学习数据库)数据库作为实验数据,主要研究了知识发现过程中以下几个问题:知识发现过程模型、知识发现的一种数据预处理方法——属性选择方法,数据挖掘算法与数据库的接口——数据抽取器,数据挖掘方法——多变量决策树和组合近邻模型。 本文的主要研究工作和成果为: 1.针对目前的知识发现过程模型在实际应用中存在挖掘周期长,对大型数据库的知识发现支持不够的问题,提出了基于数据抽取器的知识发现模型。在模型中,将知识发现过程分成数据预处理、数据抽取、数据挖掘和结果分析四个阶段。该模型利用标准的SQL语言构造数据抽取器,为不同的学习算法准备数据,可以加快知识发现过程,提高数据挖掘效率。 2.针对知识发现过程的预处理问题,研究了属性选择的理论和技术,提出了一种利用信息理论和概率论,结合了属性选择过滤法和打包法的属性选择算法,通过去除属性集中的不相关属性,降低数据维数,减少数据量,从而提高数据挖掘的精度,加快知识发现的过程。 3.针对知识发现过程的数据抽取问题,设计了数据库管理系统和数据挖掘算法的接口——数据抽取器。该接口利用一组基于SQL语言的数据抽取器实现为数据挖掘算法抽取必要的统计数据,避免了直接对大型数据库的数据进行调用,使得对大型数据库进行快速数据挖掘成为可能。并提出了SQL_C4.5算法,利用数据抽取器实现C4.5决策树的构建。 4.针对数据挖掘的多变量决策树问题,研究了构造多变量决策树的理论和方法。提出了一种利用线性判别法构造决策树的扩展属性,采用C4.5决策树的分枝准则生长树的多变量决策树算法。该方法能有效的减少决策树的复杂度,为多变量决策树的研究 国防科学技术大学研究生院学位论文提供了新的途径和思路。 5.针对数据挖掘的组合模型问题,研究了组合模型的理论和技术,分析了组合理论在近邻法的应用现状,提出了一种组合近邻模型的算法,该算法通过使用随机的属性子集组合近邻模型,提高了分类精度。 最后,本文设计了一个医疗数据知识发现原型系统。利用本文提出的知识发现过程模型和关键技术,完成了一个医疗诊断系统应用实例的知识发现过程,获得了较好的效果。 本文针对上述研究内容,进行了大量的实验研究和论证,结果表明,本文的理论。方法与技术正确有效,达到了加快知识发现过程,提高知识发现精度与效率的目的,实现了利用分类技术优化知识发现过程的目的,具有良好的实际应用前景。
其他文献
简要介绍了影响碳正离子稳定性的因素,对定量比较碳正离子的pK R+值法和氢负离子的亲合势法进行了总结,并根据氢负离子的亲合势对常见正离子的稳定性进行了比较。
本文从侯氏黑散的病因病所病机、方药解析及服药方法阐述张仲景对中风一证之论治,指出中风的病因病机系心脾阳虚,气血亏虚,风邪入中。
长期以来,山东省基层卫生能力弱、活力差、发展不平衡不充分的问题较为突出。具体表现在,与城市大医院相比发展不平衡、与兄弟省份相比发展不平衡、与教育等其他行业相比发展
“放管服”改革是一场从理念到体制的深刻变革,是一场刀刃向内的自我革命,是处理好政府与市场关系,使市场在资源配置中起决定性作用和更好地发挥政府作用的必然要求。“双创双服
该文对海南省人民医院静脉用药调配中心(PIVAS)发生的不合理医嘱及输液调配工作进行统计分析,收集该院PIVAS开展以来接收到的不合理医嘱及调配差错记录,并做出专业分析及点评.
本文采用传统的溶胶凝胶法和负载法合成了NiO负载的YMnO3光催化剂。XRD结果表明,采用两步法成功合成了NiO负载的YMnO3光催化剂。紫外可见吸收光谱分析表明,NiO负载的YMnO3光
[目的]通过研究我国柑橘主产区的区域比较优势及其影响因素,为我国柑橘产业的发展提供科学依据。[方法]利用2005—2015年全国柑橘产业的相关数据,采用综合比较优势指数模型和
开展人性化护理的目的是保障患者的权益,措施是组织保证,护理人员的培训,综合素质的提高,营造人文关怀的氛围,将人性化护理落实在每一个护理环节中。
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
论文选择了科技自主创新能力领域的一个题目做为研究对象。加强科技自主创新能力建设是目前克服全球经济危机、保持我国持续发展的关键手段。但是,当前对科技自主创新的认识