论文部分内容阅读
伴随着计算机技术的迅速发展和科技的突飞猛进,网络得到了广泛的应用,已经成为人们沟通交流的重要途径之一。越来越多的人喜欢利用网络来获取自己所需要的信息,同时,网站作为最大的一个信息交互平台,受到越来越多的公司、企业重视,并且为他们获取了巨大利益做出了突出贡献。公司或企业的网站在运行的同时,如何根据用户的访问习惯和访问要求及时进行优化以满足他们的个性化需求,成为现代网络技术关注的重要问题。为解决这个问题,研究人员提出了Web口志挖掘的方法,通过计算Web日志中用户的相似度,再根据各种聚类方法进行聚类,最后根据聚类结果了解用户群体的需求和兴趣,从而改善网络服务,进而达到为用户提供史优质的服务甘的。Web日志挖掘作为数据挖掘中很重要的一个研究领域和研究方向,在研究过程中存在很多问题:首先,在用户的特征表示方面,研究人员无法正确的找出Web日志中用户的兴趣所在,只是单纯的把浏览页面分为目标页面和导航页面,不能准确的采用用户的浏览兴趣来表示用户特征;其次,在采用的聚类算法之前,经常忽略了Web口志中孤立点的影响。针对这两个问题,本文提出一种基于用户浏览兴趣的变色龙算法,从以下两个方面进行研究:(1)用户特征提取:根据用户浏览的兴趣来提取用户特征,采用事务识别的路径作为研究对象,将用户浏览时间和浏览内容相结合提取用户特征,最后根据这种用户特征计算用户相似度。实验表明,此方法体现了用户浏览兴趣的所在。(2)基于用户浏览兴趣的Web日志聚类:从Web日志的实际出发,采用EVCLUS算法处理孤立点,并采用基于用户浏览兴趣计算得到的用户相似度来表示变色龙聚类算法中两点之间的权重,排除孤立点,提高了变色龙算法抗噪声能力。本文以美国DePaul大学采集到的5446个用户、共20950条会话进行对比实验,实验结果证明基于用户浏览兴趣的变色龙算法能够很好的把握用户浏览兴趣,而且在排除孤立点、提高聚类效果等方面有了很大的提升。