Web日志序列模式挖掘算法及其应用研究

来源 :上海财经大学 | 被引量 : 0次 | 上传用户：THINKPAD_sl400

【摘要】

：

随着现代计算机技术和网络技术的迅猛发展，人们的生活习惯和工作方式因为使用计算机和网络而发生巨变。通过网上获取信息资源，进行交流通讯和开展买卖交易成为了越来越多人日常

【作者】

：

纪建武

【机构】

：

上海财经大学

【出处】

：

上海财经大学

【发表日期】

：

2009年期

【关键词】

：

Web日志挖掘会话识别序列模式智能推荐模式挖掘

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着现代计算机技术和网络技术的迅猛发展，人们的生活习惯和工作方式因为使用计算机和网络而发生巨变。通过网上获取信息资源，进行交流通讯和开展买卖交易成为了越来越多人日常生活的一部分。但是由于网站数量的猛增，站点结构的复杂化以及网页信息的激增，人们常常发现自己迷失在信息的海洋中，同时网站的经营管理者也常常因为无法准确识别用户的意图而难以改善经营业绩，为了解决这样的问题，出现了Web日志挖掘技术。 Web日志挖掘是指通过挖掘记录用户网上行为的Web日志数据，从中挖掘出用户感兴趣的东西，从而改善用户网上体验、提供个性化服务和优化站点结构等。在Web日志挖掘所使用的技术中，有关联规则、聚类挖掘和分类技术等，本文所采用的挖掘技术为序列模式挖掘技术。Web日志挖掘包括数据预处理、模式挖掘和模式匹配这三个阶段。本文对这三个阶段分别进行了研究，其中模式匹配阶段结合了智能推荐系统进行研究。 Web日志数据预处理是Web日志挖掘的前提，它决定着模式挖掘算法和模式分析匹配算法的性能和准确性。所以，本文对数据预处理的五个阶段分成了三大环节进行研究。其中第一个环节是数据准备阶段，主要包括了数据清理和用户识别；第二个环节是关键的会话识别；第三个环节是数据完善，包括了路径补充和事务识别。本文通过分析传统的会话识别方法和目前研究热点的基于页面访问时间阈值的会话识别方法的优缺点，提出了一种基于时间判断和引用结构的简洁会话识别方法。该方法主要是将传统会话识别方法的三种方法进行了结合，从而有效的避免单独采用一种方法所可能带来的不准确性；同时，该方法也不存在基于页面访问时间阈值识别方法的缺点——识别过程中过多依赖客户端以及用户的信息，从而提高了算法的运行效率，高效地为模式挖掘阶段准备良好的数据输入。为了选择一种序列模式挖掘算法作为本文的核心算法，本文先对序列模式挖掘算法的经典算法进行了分析比较，旨在从分析比较中找到序列模式挖掘算法改进的一种思路，同时也是作为算法择优的一个基础。序列模式挖掘算法主要分成两大类算法，分别是候选集生成测试算法和模式增量算法，前者普遍存在的一个缺点是在挖掘的过程中会产生大量的候选集，同时需要多次扫描数据库以统计候选集的支持度，因此导致算法的效率低下；后者采用了特殊的数据结构，通过将原始数据压缩存储到特定的数据结构而避免了算法再次扫描数据库带来的时空开销，同时，在挖掘过程中并不会产生大量的候选集，从而将算法的挖掘效率大大提升。因此，本文选择了此类算法中的WAP-Tree挖掘算法，但是由于WAP-Tree挖掘算法在挖掘的过程中利用了条件模式数据库，递归地构造WAP-Tree进行挖掘，并没有显式地对挖掘的模式进行频度统计，所以，挖掘的结果中缺少了模式的支持度一项值，不利于应用到具体的实际应用中去。本文正是看到了原算法的这个缺陷而改进了WAP-Tree挖掘算法并将其命名为WAPR算法，使其在挖掘的过程中同时记录模式的支持度，由于模式支持度的记录只是新增了变量进行记录，因而没有太大影响算法的时间复杂度，这比先挖掘后计算支持度的方法，性能得到了大大的提高。此外，本文构建了一种基于用户访问模式的协同管理智能推荐系统。此系统旨在实现用户和系统管理员协同管理智能推荐系统的目标，同时，由于采用了用户访问模式挖掘的手段，使到挖掘和推荐的结果更能体现真实用户的访问行为。在系统的数据预处理模块中，采用了前文所研究的数据预处理技术；在模式挖掘模块中，采用了前文所改进的挖掘算法；在模式匹配与推荐模块中，本文运用了一种简单的匹配算法。最后，本文还对系统的核心功能进行了模拟实验。

其他文献

让更多残疾人艺术家脱颖而出——羊晓君隶书展在北京举办

8月22日至9月3日,由中国书法家协会、中国文联国内联络部、中国残联宣文部、浙江省文联共同主办的“家在富春山”羊晓君隶书展在北京中国美术馆举办。中国残联党组成员、副主

期刊

残联党组浙江省文联吕世明中国美术馆富春山文化艺术事业中国书法家协会残联中国文联社会心态

二级供应链中信息共享的影响因素研究

随着供应链管理的日趋成熟以及市场竞争的日益加剧，信息共享越加成为供应链联盟成功的必要因素之一。企业必须与供应链中的其他企业密切合作、共享信息，才能使供应链联盟的效率

学位

二级供应链信息共享影响因素层次分析法

两种新产品开发途径的逻辑冲突与运作整合

新产品开发目前已经成为创新型企业的重要标志，也成为所有企业竞争力的主要标志。营销革命后，虽然大家都已经明确满足顾客需求是现代企业的经营目标与宗旨，但企业却仍然以自己的

学位

创新型企

优化实验设计培养学生物理思维能力

期刊

电路笔记：电池的电化学阻抗谱(EIS)（下）

（接上期）　　3 电路评估与测试　　本节概述CN-0510电路设计的测试程序和结果的收集。有关硬件和软件设置的完整详细信息，请参阅CN-0510用户指南[1]。　　3.1 设备要求　　.带USB端口和Windows 7或更高版本的PC。　　.EVAL-AD594IBATZ电路板。　　.EVAL-ADICUP3029开发板（如图11）。　　.CN-0510参考软件。　　·USB A型转micro U

期刊

职业经理人的职业高原现象研究

经济全球化的趋势已是不容忽视和否认的事实，国外的优秀企业进驻中国市场已不是一朝一夕的事，激烈的市场竞争愈演愈烈，中国比以往任何时候都更需要大量的优秀人才为其服务。职业

学位

职业高原职业经理人期望理论组织承诺

出版业资本运营绩效评价与新疆出版业资本运营模式研究

国内外出版业发展的历史证明，资本运营是促成出版业及出版企业快速发展壮大的利器。从国际出版业来看，欧美重点出版企业已经积累了上百年的市场化管理运作经验和半个世纪的集团

学位

出版业资本运营绩效评价

红外光气测录井技术应用研究

为了探索石油钻井过程中利用红外光气体检测技术实现烃类气体检测的可行性,依据红外光吸收技术原理,进行了利用红外光气体检测技术对不同体积分数的甲烷、乙烷、丙烷、异丁烷

期刊

红外光气体检测原理实验全烃烃组分

京津冀地区水环境分析与评价研究

京津冀地区作为我国经济发展的核心区域，战略地位非常重要。城镇人口的增长、产业规模的扩大、城市化水平的提升，意味着需要更可靠的水资源保障、更安全的水生态环境支撑。但是

学位

水环境安全评价模糊综合评价废水排放量

电视节目主持人的无声语言

所谓无声语言,是指有声语言以外,可以通过视觉、听觉、触觉、嗅觉感受到的姿态、音容、笑貌、气味、颜色及其他所有传播信息符号的总称,在传播学中被称为非语言 The so-call

期刊

电视节目主持人无声语言传播学信息符号嗅觉听觉视觉触觉综艺节目新闻节目主持人

Web日志序列模式挖掘算法及其应用研究

其他学术论文