【摘 要】
:
聚类分析是数据挖掘中的一个重要研究领域,是一种数据划分或分组处理的重要手段和方法.聚类的应用是非常广泛的,无论是在商务上,还是在市场分析、生物学、Web文档分类等领域
论文部分内容阅读
聚类分析是数据挖掘中的一个重要研究领域,是一种数据划分或分组处理的重要手段和方法.聚类的应用是非常广泛的,无论是在商务上,还是在市场分析、生物学、Web文档分类等领域中都得到了充分的应用.目前,聚类算法大体上分为划分的方法、层次的方法、基于密度的方法、基于网格的方法和基于模型的方法.这些算法存在如下的问题:符号属性问题、算法的效率问题、初值的选择问题、对输入顺序的敏感性问题、最优解问题、算法对输入参数的依赖性问题.K-means算法是一种基于划分的聚类算法,它把n个对象划分成K个类,其中的聚类数目K是输入参数.该算法是通过不断地迭代来进行聚类,当算法收敛到一个结束条件时,就终止迭代过程,输出一个聚类结果.但是由于K-means算法在选择初始聚类中心时是随机选取K个点,因此,一旦这K个点选取不合理,将会误导聚类过程,得到一个不合理的聚类结果.该文在分析聚类结果对初值依赖性的基础上,对初值选取方法进行了分析和研究,进行类中心的搜索.从实际应用中可以发现,改进后K-means得到的聚类结果更加稳定,对初始聚类中心的依赖性减弱了.最后,作者将改进后的聚类算法应用到作者实习的公司开发的日志分析系统中,对人员上网的日志数据进行聚类,验证改进算法的有效性和正确性.
其他文献
随着信息时代的到来和发展,移动通信越来越受到人们的青睐,并成为了社会进步和经济发展的一个重要因素.移动自组网(MANET)作为一种特殊的无线移动网络,其前身为分组无线网(Pa
自2001年加入WTO后,中国政府承诺三年内逐步开放保险市场。随着外资公司不断涌入中国保险市场,国内保险市场的竞争愈发激烈起来。这种竞争是全方位的,既包括资本的竞争、市场的
授权管理的目标是向用户和应用程序提供授权管理服务,提供用户身份到应用授权的映射,从而提供与实际应用处理模式相对应的,与具体应用系统开发和管理无关的授权和访问控制机制。
演化硬件是将演化计算的理论、模型和算法与可重配置器件相结合,实现硬件系统的自主配置和进化.它已应用到硬件和电子系统设计等领域,是当今信息技术领域的一个新兴的研究方
SIP协议由于其灵活性以及易于扩充的特性,被广泛的应用于CS、NGN以及IMS的网络中。然而,IETF在设计SIP协议时,侧重于SIP协议的简单易用,对于协议本身的安全性问题考虑不足,所
随着网络技术的飞速发展,计算机网络被广泛应用到人类活动的各个领域,网络对社会经济和人们生活的影响越来越大.网络的安全性问题也越来越受到广泛的关注,各种网络安全相关的
基于事例推理的技术是故障诊断领域中一种广泛应用的技术,它是在认知心理学和人工智能原理结合的基础上产生的,具有自主学习的能力,有良好的自适应性和扩充性。我们把基于事例推
随着互联网的发展,互联网已经成为了世界上最大、最丰富的数据源,其中蕴含着大量的就业信息资源。这些资源不仅包含传统数据库这类的结构化资源,还包括Web上广泛应用的半结构
作为建模问题之一,反问题研究过程就是根据观测结果来推断未知的原因,其普遍存在于气象学、电磁学、材料学等科学领域中.一般情况下,反问题,特别是微分方程反问题,都是不适定
语义Web中本体层、规则层与逻辑层的研究是目前语义Web研究领域的热点,其中每层都涌现出一些各自独立定义的知识表示方法和语言,并实现了一些应用原型。然而,目前存在的一个突出