基于用户浏览兴趣的Web日志聚类研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:qingyun2008520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着计算机技术的迅速发展和科技的突飞猛进,网络得到了广泛的应用,已经成为人们沟通交流的重要途径之一。越来越多的人喜欢利用网络来获取自己所需要的信息,同时,网站作为最大的一个信息交互平台,受到越来越多的公司、企业重视,并且为他们获取了巨大利益做出了突出贡献。公司或企业的网站在运行的同时,如何根据用户的访问习惯和访问要求及时进行优化以满足他们的个性化需求,成为现代网络技术关注的重要问题。为解决这个问题,研究人员提出了Web口志挖掘的方法,通过计算Web日志中用户的相似度,再根据各种聚类方法进行聚类,最后根据聚类结果了解用户群体的需求和兴趣,从而改善网络服务,进而达到为用户提供史优质的服务甘的。Web日志挖掘作为数据挖掘中很重要的一个研究领域和研究方向,在研究过程中存在很多问题:首先,在用户的特征表示方面,研究人员无法正确的找出Web日志中用户的兴趣所在,只是单纯的把浏览页面分为目标页面和导航页面,不能准确的采用用户的浏览兴趣来表示用户特征;其次,在采用的聚类算法之前,经常忽略了Web口志中孤立点的影响。针对这两个问题,本文提出一种基于用户浏览兴趣的变色龙算法,从以下两个方面进行研究:(1)用户特征提取:根据用户浏览的兴趣来提取用户特征,采用事务识别的路径作为研究对象,将用户浏览时间和浏览内容相结合提取用户特征,最后根据这种用户特征计算用户相似度。实验表明,此方法体现了用户浏览兴趣的所在。(2)基于用户浏览兴趣的Web日志聚类:从Web日志的实际出发,采用EVCLUS算法处理孤立点,并采用基于用户浏览兴趣计算得到的用户相似度来表示变色龙聚类算法中两点之间的权重,排除孤立点,提高了变色龙算法抗噪声能力。本文以美国DePaul大学采集到的5446个用户、共20950条会话进行对比实验,实验结果证明基于用户浏览兴趣的变色龙算法能够很好的把握用户浏览兴趣,而且在排除孤立点、提高聚类效果等方面有了很大的提升。
其他文献
<正>戏曲具有悠久的历史、独特的魅力和深厚的群众基础,是表现和传承中华优秀传统文化的重要载体。"小剧场戏曲"作为一种新兴的戏曲演出形式,以其灵动的舞台演出样式,强大的
就一起不锈钢夹套容器失稳原因提出了自己的看法,可供同行在工程设计时参考.
背景:血管平滑肌细胞由收缩型向合成型的转变过程中线粒体可能参与了这个复杂的过程。目的:拟观察线粒体功能相关的PGC-1/NRF-1/mtTFA通路在人血管平滑肌细胞增殖中的作用。
介绍了赣州钴钨有限责任公司氧化钴粉碎设备的选择配备和发展情况,并对设备的特点及改进情况进行述评.
<正>随着我国养殖业规模逐渐扩大,病死禽畜的数量也随之增多。怎样无害化处理病死禽畜已经成为当前迫切需要解决的问题,并受到社会的广泛关注。因此,相关部门需要对此提高重
目的探讨D-半乳糖(D-gal)对小鼠胰腺的损伤及其机制。方法 C57BL/6J小鼠随机分为对照组和D-gal组(D-gal 120 mg/kg,qd×42 d)。注射完成第2天,采外周血测定空腹血糖(FBG)与空
阐述了全自动连续圆盘式过滤机的结构、工作原理、特点及主要技术参数.