论文部分内容阅读
随着现代计算机技术和网络技术的迅猛发展,人们的生活习惯和工作方式因为使用计算机和网络而发生巨变。通过网上获取信息资源,进行交流通讯和开展买卖交易成为了越来越多人日常生活的一部分。但是由于网站数量的猛增,站点结构的复杂化以及网页信息的激增,人们常常发现自己迷失在信息的海洋中,同时网站的经营管理者也常常因为无法准确识别用户的意图而难以改善经营业绩,为了解决这样的问题,出现了Web日志挖掘技术。
Web日志挖掘是指通过挖掘记录用户网上行为的Web日志数据,从中挖掘出用户感兴趣的东西,从而改善用户网上体验、提供个性化服务和优化站点结构等。在Web日志挖掘所使用的技术中,有关联规则、聚类挖掘和分类技术等,本文所采用的挖掘技术为序列模式挖掘技术。Web日志挖掘包括数据预处理、模式挖掘和模式匹配这三个阶段。本文对这三个阶段分别进行了研究,其中模式匹配阶段结合了智能推荐系统进行研究。
Web日志数据预处理是Web日志挖掘的前提,它决定着模式挖掘算法和模式分析匹配算法的性能和准确性。所以,本文对数据预处理的五个阶段分成了三大环节进行研究。其中第一个环节是数据准备阶段,主要包括了数据清理和用户识别;第二个环节是关键的会话识别;第三个环节是数据完善,包括了路径补充和事务识别。本文通过分析传统的会话识别方法和目前研究热点的基于页面访问时间阈值的会话识别方法的优缺点,提出了一种基于时间判断和引用结构的简洁会话识别方法。该方法主要是将传统会话识别方法的三种方法进行了结合,从而有效的避免单独采用一种方法所可能带来的不准确性;同时,该方法也不存在基于页面访问时间阈值识别方法的缺点——识别过程中过多依赖客户端以及用户的信息,从而提高了算法的运行效率,高效地为模式挖掘阶段准备良好的数据输入。
为了选择一种序列模式挖掘算法作为本文的核心算法,本文先对序列模式挖掘算法的经典算法进行了分析比较,旨在从分析比较中找到序列模式挖掘算法改进的一种思路,同时也是作为算法择优的一个基础。序列模式挖掘算法主要分成两大类算法,分别是候选集生成测试算法和模式增量算法,前者普遍存在的一个缺点是在挖掘的过程中会产生大量的候选集,同时需要多次扫描数据库以统计候选集的支持度,因此导致算法的效率低下;后者采用了特殊的数据结构,通过将原始数据压缩存储到特定的数据结构而避免了算法再次扫描数据库带来的时空开销,同时,在挖掘过程中并不会产生大量的候选集,从而将算法的挖掘效率大大提升。因此,本文选择了此类算法中的WAP-Tree挖掘算法,但是由于WAP-Tree挖掘算法在挖掘的过程中利用了条件模式数据库,递归地构造WAP-Tree进行挖掘,并没有显式地对挖掘的模式进行频度统计,所以,挖掘的结果中缺少了模式的支持度一项值,不利于应用到具体的实际应用中去。本文正是看到了原算法的这个缺陷而改进了WAP-Tree挖掘算法并将其命名为WAPR算法,使其在挖掘的过程中同时记录模式的支持度,由于模式支持度的记录只是新增了变量进行记录,因而没有太大影响算法的时间复杂度,这比先挖掘后计算支持度的方法,性能得到了大大的提高。
此外,本文构建了一种基于用户访问模式的协同管理智能推荐系统。此系统旨在实现用户和系统管理员协同管理智能推荐系统的目标,同时,由于采用了用户访问模式挖掘的手段,使到挖掘和推荐的结果更能体现真实用户的访问行为。在系统的数据预处理模块中,采用了前文所研究的数据预处理技术;在模式挖掘模块中,采用了前文所改进的挖掘算法;在模式匹配与推荐模块中,本文运用了一种简单的匹配算法。最后,本文还对系统的核心功能进行了模拟实验。