Web日志挖掘技术研究与应用

来源 :安徽大学 | 被引量 : 2次 | 上传用户:hotmail124
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的普及和计算机技术的发展,网络用户的规模越来越大,用户访问网络的行为也变的越来越多样化和复杂化。网络在电子商务、提供在线服务和信息搜索等方面得到了广泛的应用。许多商业网站都在不断提高服务质量、网站性能和竞争力以便吸引更多的客户。那么如何提高站点服务性能、改进站点结构和提供个性化服务?为解决这些问题,研究人员提出了Web日志挖掘,它是目前研究比较多的一个研究方向。日志挖掘的主要数据源来自服务器端的日志数据,对其进行预处理和模式挖掘从而得到用户的访问模式,进而可以了解群体用户的访问模式和兴趣,为站点结构优化和用户个性化服务提供决策支持。通过对大量文献资料的学习和分析,本文对Web日志挖掘预处理阶段中的关键步骤进行研究并提出了相应的算法;本文还针对K-means算法的缺陷,提出了改进算法,并将其应用到Web日志挖掘中。本文首先介绍了当前国内外研究现状,接着在第2章介绍了数据挖掘概念和Web挖掘等内容。其次重点详细介绍了Web日志挖掘预处理中的数据清洗、用户识别、会话识别、路径补充和事务识别五个关键步骤。因为预处理后数据的准确性将直接影响到数据挖掘的效果,所以对日志数据的预处理是很有必要的。本文第3章对当前预处理中的数据清洗、用户识别和事务识别三个关键步骤进行了详细的分析和研究,提出了数据清洗、用户识别和事务识别三个设计算法。用户识别算法结合了时间阈值,识别的用户更加符合实际,并且能够识别出更多的用户;根据日志记录的请求页和参引页间的链接关系,再结合时间阈值设计出了新的事务识别算法,该算法能够识别出很多有意义的事务。最后介绍了聚类分析,重点研究了K-means算法,针对K-means算法的初始聚类中心随机选择的缺陷,第4章设计了改进的K-means算法,该算法结合层次聚类算法AGNES,得到密度比较高的k个初始聚类中心,经实验验证准确率明显得到提高,迭代次数减小。本文还将改进算法应用到Web日志挖掘中,进行用户聚类从而得到群体用户的需求,为网站优化和个性化服务提供决策支持。
其他文献
随着计算机技术、高速网络和多媒体技术的快速发展,人们能越来越多地接触到大量的图像信息,如何从海量图像数据库中有效且快速地检索出所需图像是目前检索领域的一个活跃的研
随着计算机网络的快速发展,IPv4协议表现出越来越多的不足,IPv6协议取代IPv4协议已经成为一种必然。由于IPv4和IPv6互不兼容,将出现IPv4和IPv6网络长期共存的状况,在这个过渡
随着移动通信技术和无线网络技术的飞速发展,人们可以在任何地方任何地点获得与自身位置相关的信息。这促进了基于位置服务(LBS)的发展。位置服务虽然为人们的生活提供了方便,
自我国烟草行业实现“统一管理,工商分设”以来,企业有了全方面的发展,但是由于烟草工商之间系统还相互独立,形成了一个个信息孤岛,无法实现数据之间的互联互通,缺乏有效地交互信息
数据仓库是面向主题的,抽取于数据库,受数据驱动。数据仓库可以为需要做决策分析的系统提供数据支持。我们主要关注数据仓库的逻辑建模,包括:需求分析、概念模型设计和逻辑模型设
汽车电子是现代汽车中一个发展迅猛的领域,ECU(Electrical Control Unit)在其中扮演着非常重要的角色。为了实现汽车电子的智能化和网络化,汽车中需要集成更多的ECU。但是ECU的核
本论文主要在研究已有的医学图像处理平台的基础上,以FISH探针标记的胃癌肿瘤细胞的荧光图像为研究对象,用该FISH图像分析系统对荧光标记的细胞图像进行图像的预处理与荧光区
作为现在信息采集的重要技术,无线传感器网络从诞生之日起,就一直是研究和应用的热点,随着智能电网的提出,无线传感器网络在输电线路监测方面的应用得到很大的重视,以期达到
伴随着信息产业的迅速发展,计算机软件技术的应用也越来越广泛,然而,由于计算机软件中存在各种可能引起故障的错误,软件可能会发生软件失效。随着嵌入式软件在军事、商业等等各行
随着科技日新月异的发展,计算机网络在我们生活中扮演的角色越来越重要,可以说到了不可或缺的地步。网络中异地资源的共享能给我们带来了很多的方便,异地资源如何更好的被大