基于PrefixSpan算法的Web模式挖掘方法研究

来源 :山西大学 | 被引量 : 4次 | 上传用户:powermill1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅速发展,大数据时代已悄无声息地到来,数据的规模较之过去已呈现出井喷式的增长态势,同时数据结构亦愈发复杂多变。在这样的情势下,由于传统的数据分析方法在时间复杂度和空间复杂度方面的消耗往往较高,直接导致了其在应对大规模数据挖掘规律时捉襟见肘。本文旨在将现有的序列模式挖掘算法PrefixSpan算法进行改进并应用于Web用户行为模式挖掘和序列模式挖掘中。本文研究内容如下:(1)对现有的序列模式挖掘算法进行比较分析。传统的PrefixSpan算法仍然需要花费大量的时间与空间来完成构建和扫描投影数据库的过程,以至于严重地影响了算法的执行效率。同时对Web序列模式中用户在实际浏览和访问过程中所体现的规律性和喜好程度进行分析。(2)提出了IPWRPIS算法,相比于传统的PrefixSpan算法,以序列代替项集进行扩展、放弃挖掘序列数小于阈值min_Support的投影数据库以及直接递归局部频繁项等方式为主要思想进行,并将其应用于Web用户行为模式挖掘中。实验结果表明,改进的算法不仅比PrefixSpan算法效率具有了一定的提高,还可以有效地获取用户访问Web页面的行为模式信息,对日志记录中的规律进行分析和研究。(3)提出了IPPSIFO算法,该算法以降低投影数据库的生成规模和削减扫描用时为基本思想,首先在投影数据库的序列生成过程中增加筛选修剪操作对非频繁项直接舍弃,其次在具体的投影处理过程中采用按序隔层的投影方式进行,从而实现优化算法运算效果的结果,并应用于Web序列模式挖掘中,算法效率有了显著提升。综上,本文针对PrefixSpan算法进行改进并分别应用于Web用户行为模式挖掘和Web序列模式挖掘之中,经过实验对比,改进的算法均优于经典PrefixSpan算法性能。然而序列模式的挖掘工作仍然面临着许多新的挑战,如何将本文的工作应用于更加广泛的实际应用中,还需进一步探索。
其他文献
随着高速网络技术和多媒体技术的飞速发展,网络用户快速增长,新业务不断涌现,用户对网络服务质量(Quality of Service,QoS)提出了更高的要求,目前计算机网络的服务质量已经成
IEEE 802.11是无线局域网(WLAN)协议标准。以802.11标准为基础的无线局域网的使用已经深入人们的生活,从个人通信、餐饮服务、室内外会议到军事等领域都有广泛应用。WLAN中的
随着无线网络和移动通信在全球的迅速发展和普及,无线数据广播技术越来越成为一个重要的研究热点。数据广播是无线环境中的一种非常高效的发布信息方式。服务器将热点数据通过
随着恐怖活动的加剧,各式汽车炸弹袭击事件频发,社会公共安全和恐怖主义威胁成为世界上很多国家共同关注的焦点。在我国有些犯罪分子利用车辆底盘藏匿违禁品或爆炸物的情况时常
近几年来,大规模的文本分类问题是一个十分热门的话题,特别是在针对网络数据的网页分类问题以及层次分类问题。并且,在基于维基百科等大量网络数据的处理中,大规模的样本类数
当前高档汽车广泛使用嵌入式处理器、现场总线和控制软件等电子技术实现和控制汽车部分功能,形成复杂的分布式控制系统,并且安装了越来越多的智能传感器,其所需处理的信息大
随着 Web技术的发展,Web服务在互联网中的数量迅速增长,互联网上出现了大量在功能上相同或相近的 Web服务,但是它们的非功能属性往往是不同的,因此在对这些服务进行操作时,不仅需
随着科技的发展和各应用领域需求的日益增长,计算机视觉研究一直以来都被国内外研究者密切关注,动态前景分离作为计算机视觉的低层处理部分,其分离结果一方面直接决定着动态
随着网络技术的快速发展,网络业务不仅包括传统的数据业务,还包括语音、视频等多媒体业务。多媒体业务要求网络提供很高的带宽,低时延和低抖动等。为满足新型网络业务的服务
无线多媒体传感器网络是在传统的传感器网络的基础上发展而来的,引入了多媒体信息的感知内容(如视频、音频等),具有更强的感知能力。但是,传感器节点资源(能量、带宽等)有限,而多