基于Web日志的序列模式挖掘算法的研究

来源 :东北师范大学 | 被引量 : 4次 | 上传用户:hl03031121
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的来临,人们越来越依赖来自网络中的信息,同时对信息搜索技术的准确率的要求也越来越高。然而,由于网络中的信息量呈爆炸式增长,并且还包括各种虚假,不相关等的信息垃圾,无形中给用户的访问造成了极大困扰。于是如何在有效时间内找到用户真正需要的信息,成为了当前Web日志挖掘研究领域的热点问题。而其中序列模式挖掘则是作为较为重要的Web日志挖掘技术的一个重要研究分支,越来越被学者们关注。近年来很多学者针对搜索技术提出了效率较高,符合用户需求的序列模式挖掘算法。序列模式挖掘技术具有广泛的实际应用价值,它可以在具有序列特征的数据上进行挖掘,找到满足用户需求的潜在模式,商业用户通过分析这些模式进行策略或者结构上的改进措施,以达到他们不同的目的,如提高服务质量或者提高个性化服务等。比如,序列模式挖掘在商业领域中被网站用来进行用户访问模式挖掘,网络超市用这个技术来进行用户购买行为预测等,生物学家用它来进行生物DNA序列挖掘等。因此,序列模式挖掘技术研究具有重要的实际意义。本文主要的研究工作是在Apriori算法基础上,利用SPADE算法存储策略,来简化连接和测试过程,同时为了提高算法效率,也为了使挖掘结果更加符合用户需求,在Apriori算法上添加能够反映用户需求的时间约束。Apriori算法具有的突出问题是:扫描数据库次数多,搜索空间大,产生大量的候选集。所以本文通过添加时间约束对Apriori算法进行改进,希望能达到缩小搜索空间,减少候选集和找到满足用户需求的模式的目的。同时为了缩小算法执行过程中占用的内存,本文提出了一个五元组存储策略,这样同时也能够简化搜索过程。虽然添加了时间约束,会增加算法的复杂度,但改进后的算法在整体上效率还是有所提高的。本文充分考虑了改进算法的运行效率,能达到较好的准确率及召回率,并借鉴其他通过时间约束进行改进的算法,实现了本文的挖掘算法,取得了一定的挖掘效果。
其他文献
随着无线通信和数字电子技术的发展,由低成本、低功耗、多功能的无线传感器节点组成的无线传感器网络得到迅速发展。无线传感器网络是由许多无线传感节点密集分布组成的,它具有
博物馆是收集、保护和展示各种重要文物的场所,但展览空间有限,在实现资源共享、传播古老中国文化方面存在诸多限制。随着计算机和网络的发展,用数字化手段建成基于网络的数
计算机网络的发展改变了教学模式,尤其是教育资源的网络化成为一个必然的趋势。目前网络教学技术非常发达,但由于语言的独特性,仍然不适用于蒙古文教育资源。现今我区各个院
生产作业调度问题是研究在有限的资源条件下,如何分配资源以满足某个或某些特定的生产指标,并使得生产企业获得最大的经济利益和社会效益。生产调度在企业生产管理中占据至关
学位
电力线路GIS能够有效地整合设备的属性、分布、运行和生产信息,为电力企业生产和营运管理提供了一种高效、先进的手段。故本课题以配电网为基础,利用G/TECHNOLOGY平台的数据模型和关系类型,构建了电力线路GIS的设备模型,并开发了线路图自动生成功能,验证了此模型的合理性,为电网分析和辅助决策提供了依据。电力线路最佳抢修路径作为电力线路GIS的功能,对及时恢复供电和保证供电可靠性具有重要意义。故本
随着多媒体技术和智能设备的迅速发展,数字图像规模呈爆炸之势。如何有效的利用计算机技术对图像进行高效管理,成为了当前炙手可热的研究领域。图像分类主要就是研究如何提取
随着社会的进步,科技的发展,以及人们意识形态的改变,安全防范技术越来越受到人们的重视,门禁系统已成为安全防范系统中极为重要的一部分。门禁系统是随着自动识别技术的发展
近年来,随着微机电技术、传感器技术和无线通信技术的进步,推动了低功耗多功能的传感器的快速发展,使其在微小体积内便能够集成信息采集、数据处理和无线通信等功能。无线传
随着计算机网络和数据库系统的迅速发展,企业竞争与兼并的加剧,Web信息集成和企业信息集成的需求越来越迫切。在信息集成过程中,由于背景环境的不同,数据源可能是关系数据库
随着社会信息化进程的不断发展,人们对信息的需求和依赖程度越来越高,如何从海量信息中快速有效的获取有用信息,已经成为人们研究的焦点。信息集成的研究可以帮助人们有效的