关联规则挖掘在图书馆资源建设中的应用

来源 :上海海洋大学 | 被引量 : 0次 | 上传用户:zihaocn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的数据中提取人们感兴趣的知识和规则的过程,数据挖掘的研究已经取得了重大的进展,而且被应用到众多的领域。关联规则挖掘是数据挖掘研究中的一个重要课题,它主要用于从给定的数据集中发现频繁出现的项集模式知识。由于最大频繁项目集中已经隐含了所有频繁项目集,对同一个数据库来说,在相同的最小支持度下,发现的最大频繁项目集的数量要远小于频繁项目集的数量,这就使计算的开销有很大的降低,所以可以把发现频繁项目集的问题转化为发现最大频繁项目集的问题。   随着信息化时代的来临及网络和计算机应用的普及,图书馆每天产生大量的图书流通数据,这些数据除了用于记录读者的信息外,一般只用来做一些常规的业务数据统计,这些数据潜在的使用价值还远远没能得到充分的挖掘和利用。因此,我们可以通过将关联规则挖掘方法应用到图书数据的分析中,挖掘和发现出借阅行为中隐含的规律,以指导图书馆的馆藏分布和图书采购决策,以及提供给读者更人性化的服务等。   本文首先总结了数据挖掘的现状、图书馆资源建设的现状以及数据挖掘在图书馆中的资源建设现状。接着介绍了数据挖掘的概念、过程、任务以及它的发展趋势,深入学习和研究了关联规则挖掘的基本概念、性质、基本步骤和常用算法。   然后,重点对如何高效挖掘最大频繁项集进行了研究。在学习FP-tree的相关理论及其构建过程的基础上,分析了目前比较经典的基于FP-tree的最大频繁项集挖掘算法DMFIA。同时大胆尝试使用新手段和新思路,对关联规则的最大频繁项集挖掘算法进行了探索,提出了一种基于FP-tree的新的最大频繁项集挖掘算法DMFIB。举例分析了算法的思路,并通过实验模拟数据将DMFI_B与DMFIA进行比较,验证了算法DMFI_B在性能和效率上的优越性。   最后,设计和实现了图书馆数据挖掘系统。系统以上海海洋大学图书馆后台数据库中2008年9月1日至2010年9月1日的借阅的流通日志为数据来源。先经过数据预处理过程,包括数据选取、数据清理、数据转换,再经过数据挖掘,采用DMFI_B算法实现了对图书馆读者借阅数据的挖掘,找出关联规则。最后对挖掘出来的结果进行了分析和评价,结果表明,本文的研究与设计为图书馆图书采购、排架以及信息服务提供了一个科学决策的有效方法。
其他文献
随着网络技术的迅猛发展,电子商务作为一种全新的企业经营手段迅速发展并逐渐成熟。基于移动Agent技术的智能电子商务系统,克服了传统电子商务技术的不足,有着巨大的应用前景
近年来,失业人员数量的不断增加已经成为影响社会稳定的重要因素,为此无锡市劳动局加强了对失业人员的管理。为了达到有效管理失业人员的目的,无锡市劳动局开发了一套无锡市社区
随着大数据、云计算技术的快速发展,网络中数据的管理统一、维护的便利性和数据的高安全性方面的要求也更加严格。在网络的使用过程中,确保网络流量的正常是网络健康有序运行
车牌识别系统(LPR)是智能交通系统的核心组成部分,广泛应用于交通部门的违章检测、高速公路自动收费和智能停车场管理等方面。车牌识别系统主要包含图像预处理、车牌定位、车
随着对存储需求量的不断增长,用户对数据的连续可用性的需求标准也不断提高。如何快速有效地保护和恢复数据,已成为目前信息存储领域的研究热点。连续数据保护便是实现此要求
触摸屏是一种集显示器、鼠标器和键盘等功能于一体的新型人机界面,不仅能显示丰富的多媒体信息,而且集成触控和键盘输入的功能,体积小巧,特别适合嵌入式设备特别是便携设备上
网络分析作为GIS最主要的功能之一,是地理信息系统的重要组成部分,在电子导航、交通旅游、城市规划以及电力、通讯等各种管网、管线的布局设计中发挥了重要的作用,是研究的一个
学位
随着智慧医疗的兴起,大量的医疗数据资源被整合到一起。医疗大数据作为一笔宝贵的财富,它的知识挖掘已经成为当前学术领域的一个研究重点。由于数据量和冗余属性的增多,使得
面对国内广阔的高清市场,蓝光技术蓄势已久,如果采用蓝光,中国高清市场将继续受制于国外专利技术。在这样的背景下,中国拥有自主知识产权的采用红光技术的NVD播放机,于2006年
RTU是一种远端测控单元装置,负责对现场信号、工业设备的监测和控制。近些年来,在国内的RTU和DAU产品主要应用于电力行业的电网调度系统、变电站自动化控制,油田的自动化、输