Web日志中用户访问序列模式挖掘的研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:czd1986624
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web应用的快速发展,Web数据挖掘成为数据挖掘的热点之一,根据Web挖掘的目的和数据对象的不同,web数据挖掘可以分为Web内容挖掘、Web结构挖掘、Web日志挖掘。Web日志挖掘是对用户访问网站是留下的日志文件使用数据挖掘技术发现隐含的规律性知识,得到用户的访问模式,对优化站点结构和为用户提供个性化服务具有重要的意义。   在Web日志挖掘中数据预处理是整个挖掘过程的基础,直接影响日志挖掘的质量和结果。本文在对预处理各个步骤研究分析的基础上,提出了基于用户访问树的Web日志挖掘数据预处理方法,根据服务器用户访问日志建立用户访问树,并在用户访问树的基础上进行用户和事务识别,从而解决了在动态网站拓扑结构难以获取的情况下进行预处理的困难,并通过实验验证了该算法识别事务的准确性,为下一步序列模式挖掘打下坚实的基础。   对于从Web日志中挖掘出用户的访问序列模式,传统的序列模式挖掘算法在挖掘时往往效率很低,它们采用的频繁模式搜索策略经常导致算法构造大量的中间数据。本文对当前主要使用的PrefixSpan算法提出改进,在构建投影数据库时合弃非频繁项存储并在投影序列数小于最小支持度时结束扫描投影数据库,同时通过检查序列关于前缀的前缀,避免序列数据库中重复投影数据库的产生以及对投影数据库进行的重复扫描,提高了算法执行效率,并通过实验对其时空性能与原算法进行对比。   本文最后在前面工作的基础上,设计实现了一个Web用户访问日志挖掘原型系统,并就原型的各模块进行了分析,通过对高校网站服务器的真实日志数据进行挖掘,展示了完整的Web日志挖掘过程,实验证明系统是可行的和有效的,同时将得到用户访问序列模式提供给网站系统管理员参考以便更好地经营网站。
其他文献
对等(P2P)计算在管理和利用日益增长的分布式信息和计算资源方面表现出了良好的性能,所以基于P2P计算的新型分布式系统(P2P系统)成为Internet最流行的系统之一。特别是Gnutel
学位
大米是最重要的粮食品种之一,目前我国对大米的质量检测仍然停留在人工观察阶段,这种检测方式缺乏客观性与准确性,而且难以适应实际生活中的大批量的检测。针对这些问题本文
学位
随着信息与通信技术的发展、数字家庭理念的普及,家庭网关产品将走向一个更高、更先进、涉及面更广的层次,以满足数字家庭的不同功能和业务需求。智能化、集成化产品将成为家
学位
媒体服务器是国际软交换联盟(ISC)和国际互联网工程专家组(IETF)使用的术语,在第三代通信伙伴计划(3GPP)中,称为媒体资源功能(MRF)。媒体服务器位于NGN中的IP核心网上,可为软
如何将已有的面向对象系统转化为面向Aspeet系统,进而提高原有系统的可复用性、可维护性以及可扩展性已成为AOP(Aspect-OrientedProgramming,面向Aspect编程)领域的热点问题。
学位
Ad Hoc网络是国内外无线移动通信领域的研究热点,网络无需设置中心控制点,所有节点地位平等,各个节点不仅具有普通移动终端的功能,而且具有报文转发能力,通过分层的网络协议
学位
短文本分类问题是对长度短的文本(通常文本长度小于160字符)进行自动分类,它是基于短文本应用领域必须解决的具有挑战性的基础性关键问题之一,具有重要的应用前景。   在
学位
人脸检测是当前人工智能和模式识别研究中的一个热点,它可以将人脸信息有效地应用于视频监控、身份验证、档案管理、可视化通讯、多媒体数据库检索以及网络传输中的基于内容的
学位
随着信息技术的迅猛发展和人类社会生活对Internet需求的日益增长,计算机与互联网科技得以不断的创新与升级,网络入侵的风险性也越来越大,网络安全已经成为全球性的问题。入
学位
学位