聚类分析中若干关键技术的研究

被引量 : 0次 | 上传用户:tianshi6868
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于数据库的知识发现(Knowledge Discovery in Database,简称KDD)是指从大量数据中提取有效的、新颖的、潜在有用的和最终可被理解的模式的非平凡过程。它是一个反复迭代的人机交互处理过程,该过程需要经历多个步骤,主要包括数据整理、数据挖掘(Data Mining)和结果的解释评估。其中数据挖掘是整个KDD过程中最核心的步骤,数据挖掘的目的就是运用特定的数据挖掘算法,从数据库中提取用户感兴趣的知识,并以一定的方式表示出来,如树、表、规则、图等。 聚类分析是数据挖掘的最主要的功能之一,聚类就是将数据对象分组为多个类或簇,在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。本文将重点研究聚类分析中的若干关键技术和算法。 在第一章中,首先就数据挖掘进行概述,主要讨论数据挖掘的产生、发展以及数据挖掘算法可以实现的功能,主要包括:类/概念描述、关联规则、分类与回归、聚类分析、序列与时序分析以及孤立点分析等。最后给出了本文研究的主要内容和组织结构。 在第二章中,首先介绍了聚类分析的定义,聚类算法的基本要求,以及聚类中用到的主要数据类型;然后讨论了聚类分析的各种算法:划分方法、层次方法、基于密度的方法、基于网格的方法以及基于模型的方法;最后对聚类算法的应用领域进行了探讨。 第三章介绍了模糊集合的基本概念,模糊集合的运算,模糊截集及分解定理,在此基础上,研究了基于模糊关系的模糊聚类及其算法,通过应用FCM算法的实例解释了模糊聚类的应用。 第四章重点研究了高斯混合模型的聚类算法,除了介绍经典的EM算法以外,还讨论了GMDD算法。由于在某些领域,为了更准确地识别出不同性质的数据,人们会根据经验利用加权函数以获得更好的聚类效果,本文以加权似然方程为
其他文献
高血压为目前最常见的慢性病,严重威胁人类健康。随着近年来对治疗和控制高血压药物的各方面研究的积极开展,具有降压和控制血压稳定性的动物药越来越引人关注。本文对近年来
金庸以武侠小说的幻景形式和生花妙笔有效地掩盖了现实处境的严峻,完美地连缀了来自现实的矛盾的裂缝,而向世人昭示出一种理想化、和谐化的世界的可能性,并防止历史文化语境
城市径流污染已成为比较严重的城市面源污染,对城市河道和水生态环境带来了极其不利影响。在城市雨水径流污染途径分析基础上,提出了径流污染源头控制、雨洪利用消减污染以及
随着人类文明的发展,越来越多的人能积极地面对死亡、规范死亡,安乐死的问题由此产生,然而我国目前对安乐死尚未立法加以规范。作为一个跨学科理论问题,安乐死主要涉及刑法学
真实空间(太空)环境仿真对于人类航天活动具有重要研究意义。近地空间环境三维建模与可视化技术是其中一项关键技术,属于前沿性的研究领域。本文重点对此项技术进行了研究,主
“一卡通——门禁考勤管理系统”是用现代最新智能科技产品--非接触式IC 卡应用的管理系统。在实施区域内,将IC 卡制作成"员工卡"、"工作证"或"学员卡"等身份识别证件,在终端
目的论将翻译看作有目的的交际行为,认为翻译过程应以实现译文在译语文化中的预期功能为首要原则,从而突破了对等翻译理论的限制,使得翻译标准多元化。广告翻译也应以目的论
滑稽戏是流行于江、浙、沪吴语地区的地方剧种,它的前身是趣剧。趣剧是一种营建“滑稽套子”的艺术。它虽以致笑为目的,但在笑场的背后却隐藏着对社会的丑恶和人性的劣根所进
近年来,语音识别中的关键词检出技术的研究取得了很大的进展,并且应用在电话信道的条件下。然而在实际应用中,实验室“成功”的检出系统在鲁棒性、灵活性和自适应能力上还远
目的探讨扶正抑瘤法治疗晚期前列腺癌的临床疗效。通过对近10年住院的213例晚期前列腺癌患者数据的回顾性分析,包括生存期与患者年龄、体重指数、基础疾病、疾病发展阶段、病