数据挖掘在图书馆信息服务中的作用

来源 :大观周刊 | 被引量 : 0次 | 上传用户:gqy2004
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:本文探讨了数据挖掘在数字化图书馆中的应用,说明数据挖掘技术在数字图书馆应用的必要性,以及在提升图书馆服务质量和服务水平方面的发挥的重要作用。
  关键词:数据挖掘 图书馆 服务
  中图分类号:G25 文献标识码:A 文章编号:1008-925X(2012)O9-0160-01
  一、数据挖掘的定义
  数据挖掘又称数据库中的知识发现,是目前信息技术领域中的一个热门课题。所谓数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。何为知识?从广义上理解,数据、信息也是知识的表现形式,但是人们更把概念、规则、模式、规律等看作知识,把数据看作是形成知识的源泉,好像从矿石中采矿或淘金一样。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现的知识可以被用于信息管理、查询优化、决策支持和过程控制等,也可以用于数据自身的维护。因此,数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术等方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的技术热点。
  二、数据挖掘在图书馆服务中的作用
  2.1提高信息获取速度
  为保证用户在尽可能短的响应时间内获取所需信息,首先可以收集用户每次阅读的专题集合(浏览模式)作为一个事务,记录所有用户每一次浏览过程构成事务库,再对事务库进行如下操作:第一,利用关联规则采掘算法找到访问频率超过给定阈值的专题(项目)集,进而用分类算法把客户的浏览模式与频繁项目集进行相似匹配,将具有相似浏览模式的客户组织到一个服务器上,从而减少服务器缓存和传输页面的数量;第二,找到事务库中被频繁访问的专题集,利用关联分析得到专题之间的关联规则,存入服务器的知识库,当用户浏览某页时,网络代理根据规则预先连接其关联页,从而提高响应速度;第三,也可利用Web挖掘得到用户访问序列模式,根据预测预先传输用户可能阅读的页面。
  2.2提升图书馆传统信息服务的质量
  如同网络向智能化方向发展一样,信息服务也应“智能化”,即由被动服务转向主动服务,由单纯的信息呈现转向信息生成。一是信息检索服务。传统的检索工具缺乏结果的友好性,可理解性和交互性,往往将一大堆查询结果线性呈现,令用户不知所入;智能化的信息检索不仅支持概念检索、模糊检索、联想检索及多语言检索等,而且能迅速利用聚类算法将查询结果分析聚类,使之条理化呈现,方便用户筛选,同时在此基础上确定进一步的检索定位,例如系统提示“Limited yourresearch to result within one of the followingcategories”,从而实现交互式检索。二是定题与查新服务。这两种常用的针对科研的信息服务,其传统方式是检索文献或光盘数据库,然而在网络时代,我们更不能忽视对外部网络这一即时便利的信息发布平台的搜索,以确保查新结果的可靠性。同时,数字图书馆可应用兴趣模式算法判断并争取潜在用户;在服务过程中,还可利用可视化技术等帮助用户进行在线实时信息分析。三是信息分析服务。基于此,数字图书馆可提供面向商业用户的信息分析,帮助它们确定发展和竞争策略,实现自身的收益。
  2.3支持图书馆的决策管理
  管理水平低下是影响我国图书馆事业发展的重要因素之一,管理水平的提高很大程度上取决于决策的科学与否。传统的图书馆决策方式大多依靠经验进行决策,存在主观、片面、盲目等诸多问题,无法适应时代发展的要求,采用数据挖掘技术能够为领导层的科学决策提供强有力的保障。首先,数据挖掘能将涉及图书馆这一信息系统的各种内部数据和外部信息汇集起来,经过处理和转换,形成集中统一、随时可用的决策信息,防止因信息不足造成的错误决策。其次,利用数据仓库系统提供的OLAP工具可以对集成数据进行多维分析比较,对决策假设进行审查和验证,提高决策的可靠度和可行性,达到合理利用有限资金,优化图书馆的资源配置的目的。第三,数据挖掘工具可以从历史数据中找出潜在的模式,并在模式的基础上自动作出预测,这对启发图书馆决策者的创新思维,应对信息化社会的挑战具有重大意义。
  2.4支持图书馆的业务工作
  一是采访部门。采访部门职能发挥的好坏关系到图书馆资金及资源利用率的高低,如何利用有限的资金采购高质量的书刊,保障图书馆信息资源体系的科学性和合理性,是图书馆工作的重中之重。因此,准确地定位读者对象的需求就成为提高资源利用率的一个重要因素,比如一所师范院校图书馆,它既要满足专科类较低层次的读者,又要满足博士生及导师的需求,还要突出师范院校的特点,为了解决不同层次对象的需求,利用数据挖掘聚类和偏差检测技术,采用对读者发放调查问卷的方法,为聚类分析提供基本依据,将调查结果加以分析,了解读者对各类书刊的需求程度,并及时地将统计结果反馈给采访部门,从而增强采购的针对性。二是流通方面。频繁的倒架以及因为流通快而破损的图书也是值得我们挖掘的一个方面,利用数据挖掘关联分析的方法对历年借阅数据进行相关分析,相应的增长幅度较大的图书种类在上架的时候应根据预测趋势预留架位。对于那些借阅频率较大而破损的图书,以及读者多次续借的图书,应以量化的方式反馈给采访部门以加大采购的力量。
  2.5个性化信息服务
  传统的图书馆信息服务一般是图书馆员对用户提出的信息请求逐一解答,图书馆定期向用户提供与其所从事的课题有关的资料。这种被动服务模式反应较慢,不能适应当前知识发展更新速度,数据挖掘技术的应用使图书馆的信息服务由被动转向主动,大大提升信息服务效率,使图书馆成为一个智能型、主动性的信息提供处。利用数据挖掘技术对用户的浏览事务库进行挖掘,发现用户的使用模式,根据用户的兴趣模式提供主动的个性化服务。
  参考文献:
  [1]王艳.数据挖掘在数字图书馆中的应用[J].情报科学, 2003,(02) [2]王伟.基于数据挖掘的图书馆用户行为分析与偏好研究[J].情报科学,2012(3)
其他文献
在义务教育阶段语文课程标准中就明确提出:“在语文教学中,培养学生的爱国主义感情、社会主义道德品质,逐步形成积极的人生态度和价值观,提高文化品味和审美情趣”,“培养热爱祖国语言文字的情感”,“具有阅读能力,注重情感体验”;事实上,这是语文教学中长期以来不被重视的一个问题,过重的政治色彩和复杂的知识体系使得语文教学索然无味;而能将语言能力的培养融入到一种积极、愉悦的情感氛围中,语文教学不失为一块沃土。
前蛋白转化酶枯草溶菌素9(Proprotein convertase subtilisin/kexin type 9,PCSK9)基因是前蛋白转化酶中的一种,与胆固醇代谢息息相关的基因,是影响心脑血管疾病的重要因子,近年来
目的探讨中西医结合治疗缺血性脑血管病的疗效。方法选取2014年1月-2015年6月我院收治的缺血性脑血管病患者60例作为研究对象,将其随机分为对照组与研究组,各30例。对照组患