论文部分内容阅读
随着Internet的飞速发展,Web服务已在人们生活中起着越来越重要的作用.与此同时,能够反应用户行为的Web信息数据也日渐丰富。网络日志作为Web数据的一种存储方式,由于其数据充分且存储格式较为统一,非常适合对其进行挖掘和分析,因此得到了日渐广泛的研究。
在高校的局域网环境中,许多学校使用校园网网关认证系统实现对用户的管理.因此,网关日志作为网络日志的一种形式,积累了用户的网络使用行为的大量信息.本文以北京师范大学2007年的网关日志数据为研究对象,以基于K-means算法实现网络日志的聚类分析为研究内容,旨在发现高校用户潜在的网络使用模式,有助于更好地了解用户行为特征,并为网络决策提供依据。
本文首先对课题所使用的主要技术--聚类分析进行了详细的介绍,包括聚类分析的定义、待聚类数据的数据类型和度量方式以及各种度量方法等,并详细介绍了本课题所采用的K-means聚类算法及其改进措施.之后对网络日志聚类分析进行了具体的实现:首先采用数据预处理技术将原始数据转换为适合于聚类分析的结构,然后采用基本的K-means算法实现网络日志的聚类,并针对K-means算法对初始值的选取依赖较大的主要缺陷,利用最大最小距离法对初始点的选择进行改进,同时结合使用加权距离改进对象间的相异度度量,提高聚类的质量。