基于K-means算法的网络日志聚类分析

来源 :北京师范大学 | 被引量 : 0次 | 上传用户:pangzd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的飞速发展,Web服务已在人们生活中起着越来越重要的作用.与此同时,能够反应用户行为的Web信息数据也日渐丰富。网络日志作为Web数据的一种存储方式,由于其数据充分且存储格式较为统一,非常适合对其进行挖掘和分析,因此得到了日渐广泛的研究。   在高校的局域网环境中,许多学校使用校园网网关认证系统实现对用户的管理.因此,网关日志作为网络日志的一种形式,积累了用户的网络使用行为的大量信息.本文以北京师范大学2007年的网关日志数据为研究对象,以基于K-means算法实现网络日志的聚类分析为研究内容,旨在发现高校用户潜在的网络使用模式,有助于更好地了解用户行为特征,并为网络决策提供依据。   本文首先对课题所使用的主要技术--聚类分析进行了详细的介绍,包括聚类分析的定义、待聚类数据的数据类型和度量方式以及各种度量方法等,并详细介绍了本课题所采用的K-means聚类算法及其改进措施.之后对网络日志聚类分析进行了具体的实现:首先采用数据预处理技术将原始数据转换为适合于聚类分析的结构,然后采用基本的K-means算法实现网络日志的聚类,并针对K-means算法对初始值的选取依赖较大的主要缺陷,利用最大最小距离法对初始点的选择进行改进,同时结合使用加权距离改进对象间的相异度度量,提高聚类的质量。
其他文献
随着新兴的人工智能、HPC云、基于NVMe-over-Fabric的分布式存储、实时大数据分析等应用发展,RDMA技术正广泛应用于数据中心。通过传输层的硬件卸载及OS-bypass的数据路径,RDMA
感兴趣区域,ROI(Region Of Interest),一般是指物体的边缘、角点、拐点、纹理较为丰富的区域,而且这部分区域对观察者理解图像的影响较大。基于感兴趣区域的视频压缩优化一直是
近年来,随着移动计算技术和无线通讯技术的快速发展,移动学习作为一种新型的学习模式应运而生。这种能够在任何地点和任何时间利用手持无线通讯设备开展学习的方式满足了人们对
随着无线技术的迅速发展和无线网络应用的不断普及,无线频谱资源的使用日趋频繁,如何有效的解决无线频谱的紧缺的问题是关系到能否突破限制,让无线通信可持续发展的一个关键问题
交通供需不平衡及异常事件频发导致了交通堵塞、能源浪费、环境污染和安全等严峻问题。智能交通系统(ITS)是解决这类问题的重要手段,可以有效的改善交通状况。由于不能对ITS项
传统的三维造型工具适用于精确模型的制作,需要一定的时间才可以掌握。基于自由手绘的草图工具极大地简化了设计,对草图进行模型创建是现阶段计算机图形学方面一个很热的话题,本
随着计算机技术的发展,数据流已经成为数据存在的一种常见形式,被广泛应用到金融、交通、军事等领域。研究人员设计开发了许多集中式数据流管理系统以及分布式数据流管理系统以
近几年来,随着Internet的飞速发展以及IP技术不断成熟,下一代网络NGN(Next Generation Network)和软交换技术为结合电话网和Internet提供了思路,而IP-PBX(PBX over IP)是该技
基于哼唱的歌曲检索系统是一个分析处理音频信号的系统。任何信号处理过程都难免受到噪声的干扰。用户输入歌曲检索系统的哼唱信号中夹杂的白噪声、有色噪声、脉冲噪声以及非
对物体材质的研究近年来成为真实感绘制的热门问题。真实世界的材质数字化不仅对真实感图像的合成十分重要,而且还有很多其它方面的应用,比如电子商务、数字图书馆、文化遗产等