方向性聚类技术及其应用

来源 :江南大学 | 被引量 : 0次 | 上传用户:mjsega
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是利用数学的方法研究和处理给定对象的分类,其目的是发现隐藏分布在数据集中的结构。近十几年来,人们获得和生产数据的能力大幅度地提高。通过聚类分析算法人们有效的发现这些大量的隐藏数据内的数据分布模式,以及数据属性之间存在的有价值的联系。聚类分析技术广泛应用于生物信息学,考古学,心理学,计算机图像处理,信息检索,工程控制等诸多领域。在实际应用中常常会碰到高维数据,如基因表达数据,文本数据,多媒体数据等。由于这种数据存在的普遍性,使得对高维数据的聚类分析研究具有重要意义。本文针对高维数据的方向性及其聚类分析中出现的问题进行了研究。主要包括基因表达数据聚类分析和文本聚类分析,并提出了一些解决问题的方法,具有一定的理论意义和现实指导意义。本文的主要研究工作有:1)通过对高维数据方向性特点的分析,针对基因表达数据提出了一种新的相似度度量-方向性相似度,并在此基础上构造了适合基因表达的聚类算法DSCM。该算法克服了其他方向性聚类算法在基因表达聚类时的初始化敏感性,在一定程度上可以自动判断类数以及具有一定的离群点检测功能,因而具有一定的鲁棒性。大量的仿真实验证明了该算法具有良好的性能。2.)将信息论中的极大熵原理引入到经典的球面文本聚类中,构造了适合文本聚类的极大熵目标函数和极大熵球面文本聚类算法。新的算法可以避开局部极小而得到全局极小,初步解决了经典球面文本聚类算法对初始化敏感性的问题,且聚类性能有所改善。
其他文献
随着计算机应用技术的不断发展,校园数据库系统也随着社会信息化的发展而发展。在这个过程中各学校建立了自己的校园网,并和Internet相连,促进了学校的信息交流、资源共享和科研
近年来,网络上多媒体通信和分布式环境中的协同工作等应用越来越广泛,这些应用对网络提出了不同的服务质量(QualityofService,QoS)以及组播要求。因此,如何保证在应用中服务质量
随着我国经济建设和科学研究的发展,各行业信息化步伐加快。在行业内部的信息化建设过程中,各个部门根据各自内部的需求和应用开发了基于不同数据源的应用系统。但是,由于各
近年来,随着网络的普及,网络安全也面临着越来越大的威胁,各种木马病毒层出不穷。其中,僵尸网络在分布式拒绝服务攻击(DDoS)、垃圾邮件(Spam)、网络钓鱼(phishing)、蠕虫(1wo
随着信息技术的不断发展,计算机网络逐渐渗透到了国民经济的各个行业,计算机网络系统的安全已经成为经济社会发展不可忽视的一个方面。在众多的网络安全技术中,入侵检测技术
规则集是主动数据库得以实现主动能力的关键部分。使得数据库可以对其内部与外界的变化进行监控分析,在没有用户干预的情况下,能够自动地对系统内部或外部所产生的事件作出反
本文在分析了经典数学形态学的基本原理及其性质的基础上引入了soft形态学和regulated形态学算子,并详细探讨了它们的基本性质及其与经典形态学算子之间的关系,然后分别对soft
过去几年大规模开放网络课程MOOC取得了巨大成功。相对于传统的教学方式,MOOC做出了很多重大的改变。其中之一是将教育资源片段化并组织为教育资源库。片段化的教育资源使得用
本文从拥塞控制算法的必要性入手,从两方面介绍并分析了拥塞控制算法:拥塞控制源算法和拥塞控制链路算法。在源算法中以TCP算法为主,在链路算法中以路由器队列管理算法为主。
未来(三代后或四代)的公众移动通信支持速率将达20Mbps到100Mbps,至少在2~20Mbps以上支持高速移动,并要在合理的信噪比条件下保证业务质量,如何实现这个目标成为世界通信和信息科