聚类评价的研究与应用

来源 :南京航空航天大学 | 被引量 : 0次 | 上传用户:huojugjf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类是数据挖掘中一项重要的研究课题,在数据挖掘、模式识别、统计数据分析、自然语言理解等领域都有广泛的应用前景。聚类评价指标对衡量一个聚类的优劣有着重要作用,聚类评价可以检测聚类的结果是否符合“同组数据相似,不同组数据不相似”的要求。现有的聚类评价指标通常都基于统计理论或模糊理论。受到基础理论的限制,在一些特殊场合,这些指标不能对聚类进行正确的评估。本文提出了一个通用的聚类评价指标。通过把相似性定义成数据集上的二元关系,聚类被描述成Kripke 结构。用原子公式表示每个簇,聚类的结果可以用一组逻辑公式来表示。根据最小描述长度原则,聚类评价指标由这种表示方式的准确性和复杂性构成。由于这种新的评价指标对相似性没有任何附加的限制,它较之现有的评价指标更为通用,因为那些指标往往都默认了某种相似性度量方式。本文还通过实验对新旧指标进行了对比。实验结果表明,这种新的评价指标在一般情况下与大多数评价指标一致,而在一些类似“双环”   的特殊情况下比现有评价方式更有效。   航班延误一直是困扰航空公司和旅客的一大难题。航班延误预警近年来成为研究的热点。   每个航班的记录可以看成是一个样本,估算各个样本的概率分布函数对于航班延误预警很重要。   根据数据挖掘基本理论,样本不能太小,然而在实际应用中很难获得足够大的样本。有时太严格的收集样本条件会导致存在许多相似的小样本,如果放宽收集样本的条件,这些相似的小样本就可能被合并。因此,从两个根据相似性来将数据分组的过程开始,合并小样本的过程实际上就是聚类过程。为了合并样本,本文使用一个基于k-平均的独立于相似性的聚类算法。由于k-平均算法需要输入参数即聚类数目k,本文使用上述的通用聚类评价指标对一些聚类参数下的聚类结果进行评价,并且从中选择一个局部最优的结果。最后使用该聚类算法将1516个航班样本记录合并为4个大样本。实验表明合并对于得到样本的概率分布是有效的,合并样本得到的先验概率可以被用来对航班延误预警。
其他文献
问答系统是信息检索的高级形式,其中问题理解模块的问题分类任务能够为后续的信息检索模块缩小搜索范围,并有助于答案抽取模块制定抽取策略,对问答系统整体性能的提高具有重
管理信息系统(MIS)是一个由人、计算机和管理软件等组成的能进行信息的收集、传递、存储、加工和使用的系统。随着科技的发展,信息的日益膨胀,企业信息化成了企业在竞争中处于
双语知识就是同时以源语言和目标语言来表述同一概念的知识。在很多自然语言相关的研究领域里面,双语知识都是一种极其重要的资源,比如统计机器翻译利用双语知识作为训练语料,跨
嵌入式移动实时数据库管理系统的并发控制机制通常是通过对传统数据库管理系统的并发控制机制的扩展和改进,并结合移动实时环境的研究成果得到的。移动环境具有移动性、断接
有色Petri网是在经典的Petri网基础上发展起来的一种高级网系统,是一种适于描述异步并发系统的图形工具和数学工具。它以简洁的图形方式和精确的语义定义表现系统状态,并用形
近年来,电力工程造价软件因其计算准确,易于审核、调整和进行动态管理等特点,在电力工程造价领域有着非常广泛的应用。论文以电力工程造价软件为研究对象,根据电力工程专业性
随着科学技术的发展和信息时代的来临,多语言共存的国际化环境是一种趋势。电子词典作为一种语言学习的工具,具有广阔的应用前景和商业价值。基于嵌入式操作系统的专用电子词典
随着数字地球、数字城市、数字奥运等概念的提出和运作,地理信息系统现己广泛应用于资源调查、环境评估、灾害预测、国土管理、城市规划、交通运输、水利电力、公共设施管理、
随着信息化科技的迅猛发展,作为一种集信息采集、通信和计算于一身的综合性平台,无线传感器网络(Wireless Sensor Networks,WSN)在家庭、医疗、工业和军事等领域得到了越来越
计算机技术在石油钻井工程领域的应用日益深入,从钻井工程设计到每一个施工阶段,都离不开计算机技术的应用。钻井工程的信息庞大而复杂,钻井作业地域分布广泛,数据资源存在异构、