论文部分内容阅读
数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的数据中提取人们感兴趣的知识和规则的过程,数据挖掘的研究已经取得了重大的进展,而且被应用到众多的领域。关联规则挖掘是数据挖掘研究中的一个重要课题,它主要用于从给定的数据集中发现频繁出现的项集模式知识。由于最大频繁项目集中已经隐含了所有频繁项目集,对同一个数据库来说,在相同的最小支持度下,发现的最大频繁项目集的数量要远小于频繁项目集的数量,这就使计算的开销有很大的降低,所以可以把发现频繁项目集的问题转化为发现最大频繁项目集的问题。
随着信息化时代的来临及网络和计算机应用的普及,图书馆每天产生大量的图书流通数据,这些数据除了用于记录读者的信息外,一般只用来做一些常规的业务数据统计,这些数据潜在的使用价值还远远没能得到充分的挖掘和利用。因此,我们可以通过将关联规则挖掘方法应用到图书数据的分析中,挖掘和发现出借阅行为中隐含的规律,以指导图书馆的馆藏分布和图书采购决策,以及提供给读者更人性化的服务等。
本文首先总结了数据挖掘的现状、图书馆资源建设的现状以及数据挖掘在图书馆中的资源建设现状。接着介绍了数据挖掘的概念、过程、任务以及它的发展趋势,深入学习和研究了关联规则挖掘的基本概念、性质、基本步骤和常用算法。
然后,重点对如何高效挖掘最大频繁项集进行了研究。在学习FP-tree的相关理论及其构建过程的基础上,分析了目前比较经典的基于FP-tree的最大频繁项集挖掘算法DMFIA。同时大胆尝试使用新手段和新思路,对关联规则的最大频繁项集挖掘算法进行了探索,提出了一种基于FP-tree的新的最大频繁项集挖掘算法DMFIB。举例分析了算法的思路,并通过实验模拟数据将DMFI_B与DMFIA进行比较,验证了算法DMFI_B在性能和效率上的优越性。
最后,设计和实现了图书馆数据挖掘系统。系统以上海海洋大学图书馆后台数据库中2008年9月1日至2010年9月1日的借阅的流通日志为数据来源。先经过数据预处理过程,包括数据选取、数据清理、数据转换,再经过数据挖掘,采用DMFI_B算法实现了对图书馆读者借阅数据的挖掘,找出关联规则。最后对挖掘出来的结果进行了分析和评价,结果表明,本文的研究与设计为图书馆图书采购、排架以及信息服务提供了一个科学决策的有效方法。