数据挖掘的应用研究

来源 :中国信息导报 | 被引量 : 0次 | 上传用户:huli890615
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  (安徽财经大学信息工程学院信息管理系,安徽蚌埠 233041)
  [摘 要]数据挖掘是当今新的技术热点。本文从数据挖掘概念及预处理过程展开研究,分析了数据挖掘的常用算法及其应用,重点阐述了数据挖掘在知识管理中的应用,分析了利用数据挖掘发现的知识类型,并用具体案例叙述数据挖掘的应用,明确指出了在知识管理应用中存在的问题,展望了数据挖掘未来的研究方向。
  [关键词]数据挖掘;算法;知识管理;中间态;应用
  数据挖掘也称为数据库中的知识发现,是从大量、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道但又是潜在有用的信息和知识的高级处理过程。它可以帮助企业在过去经验的基础上预测未来,提高市场决策能力,为企业构筑竞争优势;帮助科学家从大量数据中发现规律,提高科学研究效率。数据挖掘是一门交叉学科,注重多种发现策略和技术的集成及多学科间的相互渗透,把对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。
  
  1 预处理工作
  
  数据挖掘特点之一是在开始数据挖掘前做大量预处理工作。包括:(1)定义问题:确定数据是否适合解决客户所提的问题;(2)获取数据:在企业数据库专家的帮助下,理解企业数据库的结构、内容:(3)整理和初探数据:把需要挖掘的数据,整理成适合于挖掘的标准形式,对那些丢失和错误的数据作适当处理;(4)选择和准备数据:在初步理解数据后,选择合适的挖掘工具和挖掘技术;(5)挖掘数据:用选择好的挖掘工具和技术对数据进行处理,从而发现规则、模式和趋势等;(6)解释结果:把数据挖掘所得到的知识反馈给用户进行评价;(7)运用知识:利用数据挖掘获得的知识来有效解决最初客户所提出的问题。数据挖掘是一个完整、交互式的循环往复过程,该过程从数据仓库中自动分析信息,进行归纳性推理。它也是高级处理过程,从数据集中识别潜在的模式以表示知识或产生联想,建立新的业务模型,帮助决策者调整市场策略、做出正确决策。它还是多个步骤的处理过程,各个步骤间相互影响、反复重新调整,每一个步骤一旦与预期目标不符,都要回到前面的步骤重新执行,形成多次循环反复、螺旋式上升的过程。它更是一个在资金和技术上高投入的过程,这一过程反复不断地趋近事物本质,不断优化问题的解决方案。
  
  2 常用算法
  
  目前,对数据挖掘的研究主要集中在算法及应用方面,算法的好坏直接影响到所发现知识的好坏。
  (1)分类中的决策树法:分类目的是掌握一个分类函数或分类模型,该模型能把数据库中的数据项映射到给定类别中的某一个。在分类中的算法主要是决策树法,是一种树型结构的预测模型,其中树的非终端节点表示属性,叶节点表示所属的不同类别,根据数据的不同取值建立树的分支,形成决策树。决策树的决策制定过程是可见的,决策树产生直观、易理解的规则,而且分类不需太多计算时间,适用于对记录分类或结果的预测。该方法应用时间较长、算法简单,但在结点分裂过程中要评价分裂点的优良程度,它以信息论原理为基础,应用最有效、最广泛。决策树的具体方法有ID3决策树和IBLE决策规则树法。ID3是国际上最早、最有影响的决策树方法。IBLE方法的识别率比ID3提高了10个百分点,IBLE建立的决策规则树,在训练例子集的数目大幅度变化时,与ID3方法相比具有较好的稳定性,该方法更适合渐进学习。
  (2)预测:预测是构造和使用模型评估无标号样本类,或评估给定样本可能具有的属性值或值区间,用于提取描述重要数据类的模型或预测未来数据趋势。预测的两类问题是分类和回归。分类是预测离散或标称值,而回归是用于预测连续或有序值。由此可见,采用预测法预测类标号为分类,采用预测法预测连续值为预测。数据发掘目标之一的预测是已知数据项和预测模型,预测该数据项特定属性的值,预测也包含基于可用数据的分布趋势识别,也可用于证实已提出的假设。
  (3)关联分析法:挖掘关联是通过搜索系统中的所有事物,从中找到出现条件概率较高的模式。关联实际上就是数据对象间相关性的确定,用关联找出所有能将一组数据项和另一组数据项相联系的规则,这种规则的建立是一个具有一定置信度的可能值,即事件发生的概率。若两项或多项属性之间存在关联,则其中一项的属性值就可以依据其他属性值进行预测,找出数据库中隐藏的关联网,从而指导决策制定。例如,在购买面包和黄油的顾客中,有90%的人同时也买了牛奶。就可将面包、黄油和牛奶等顾客经常同时购买的商品摆放在一起以提高售货效益。关联分析法直观、易理解,但对于关联度不高或相关性复杂的情况不太有效。
  (4)人工神经元网络:神经网络的数据挖掘方法是通过模仿人的神经系统来反复训练学习数据集,从分析的数据集中发现用于预测和分类的模式,进行趋势分析。神经元网络对于复杂情况仍能得到精确的预测结果,而且可以处理类别和连续变量,但神经元网络不适合处理高维变量,其最大缺点是不透明性,因为其无法解释结果是如何产生的及其在推理过程中所用的规则。神经元网络适合于结果比可理解性更重要的分类和预测的复杂情况,用于聚类、分类和序列模式,实现复杂的模式探测和机器学习算法。最近几年,神经网络在解决实际问题中最大的突破是客户反应预测等。
  (5)遗传算法:是一种基于生物进化理论的优化技术,实质就是一种把自然界有机体优胜劣汰的自然选择、适者生存的进化机制以及在同一种群中个体间的随机信息交换机制相结合的搜索算法。数据挖掘中常把任务表示为~种搜索问题,利用遗传算法强大的搜索能力找到最优解。实际上遗传算法是模仿生物进化的过程,反复进行选择、交叉和突变等遗传操作,直至满足最优解。该算法可处理许多数据类型,可并行处理各种数据,常用于优化神经元网络,解决其他技术难以解决的问题,其最大优点是问题的最优解与初始条件无关,且搜索最优解的能力极强。但需要的参数太多,且对许多问题编码困难、计算量大。
  
  3 在知识管理中的应用
  
  3.1 企业知识资源的发现
  企业数据库中的知识发现是根据对数据的分析建立对数据特性及数据间关系描述的模式。采用两种方式使用这些发现的知识。一是可以提供指导企业经营活动的知识。例如,通过知识提取可以得到超市中销售商品之间的关联,以指导上货,通过对商品的销售情况分析找到影响销售的因素,以指导进货,减少库存积压。二是在预测中运用该模式。例如,信用卡公司为了鼓励人们使用,通过信函方式宣传,需要向 大量用户邮寄资料而实际能够产生积极回应的用户并不多,造成很大浪费。通过对用户回应的数据分析,找出一种模式帮助预测哪些用户最可能做出反应,从而做到有针对性地只对有可能做出反应的用户发出邀请,减少了信函数量,从而减少大量的邮寄费用。
  企业知识资源的发现是较复杂的过程,属于高度智能化范畴。对于显性知识,可通过现代科技手段发现和获取。而对于大多存在于人脑中的隐性知识,不能通过常规手段,只能通过模仿、交谈、实践等方式发现和获取。知识发现系统在用户知识发现任务驱动下,依赖领域内的背景知识,尽可能自动、智能、有效地挖掘数据内部未知的、潜在的模式及趋势,使人与计算机达到理想组合。知识资源的发现是利用知识发现引擎,依托知识库,选用高效的算法,对数据进行挖掘、评价、筛选。企业知识资源的发现是一个动态过程,企业在经营过程中不断地在创造和接受新知识。在企业中,知识源于讨论,并通过员工的独立思考、收集并分析相关信息以及对现实中的实践和方案的综合得到补充,不断自我孵化和增长。
  3.2 知识转换过程的中间态
  在组织的知识管理过程中,还没有经过验证但已经公开提出来的假想、设想、理论、模型、流程等属于中间态。在知识转换过程中的某个时间存在中间态,中间态是最难被发现的一类知识。例如,在知识转换螺旋的隐性知识转变为显性知识的过程中,从微观上分析,存在两种可能。一是隐性知识不经过中间态,直接发生跃迁,转变为显性知识。二是经过一个中间态过程,这个过程或非常短暂或经历时间较长。转换过程中存在一个临界点,处于临界点的知识属于新的、显性知识的萌芽,一旦被激活,则越过临界点顺利转换为显性知识;若未能被激活,则隐性知识不能转换为显性知识。
  研究知识转换的中间态,对于组织的知识管理具有一定的理论和实际意义。因为对新知识的萌芽进行管理(包括提供促进其产生的手段、激励机制等),有助于新知识的最终形成及知识管理目标的实现。在知识管理的背景下,区别组织知识和个人知识很有好处。在组织中,个人隐性知识转换成显性知识的过程中,其转换的中间态显而易见是存在的,它是在组织的学习、实践中被激活转换的,是一个操作性、交流过程中的东西。中间态是重要的知识资源,同时也是最难发现和最难控制的资源。
  3.3 利用数据挖掘发现的知识类型
  数据挖掘所能够发现的知识主要包括以下几种类型:(1)广义知识:根据数据的微观特性发现其表征的、带有普遍性的、较高层次的、中观和宏观的知识,反映同类事物的共同性质,是对数据的概括、精炼和抽象。其发现方法和实现技术有:数据立方体、面向属性的归约方法等。(2)关联知识:反映一个事件和其他事件之间相关联的知识,最为著名的关联规则发现方法是Apriori算法。识别或发现所有频繁项目集是关联规则发现算法的核心,计算量很大。(3)分类知识:反映同类事物共同性质的特征性知识和不同事物之间的差异性特征知识。最典型的分类方法是基于决策树的分类方法,从实例集中构造决策树,是一种有指导性的学习方法。(4)预测型知识:根据时间序列数据,由历史的和当前的数据去推测未来数据,是以时间为关键属性的关联知识。时间序列预测方法有经典的统计方法、神经网络和机器学习等。(5)偏差型知识:是对差异和极端特例的描述,提示事物偏离常规的异常现象,如标准类外的特例、数据聚类外的离群值等。
  
  4 存在问题及研究方向
  
  数据挖掘从数据仓库中揭示出对企业有潜在价值的规律知识,形成知识发现,为知识管理提供了内容,在知识管理中起到中流砥柱的作用。数据挖掘系统背后又要依靠大量真实可信的数据资源,从社会方面看,会涉及个人隐私、非法数据交易、数据价值评估等问题,这些数据的获取需要一套社会保障体系支持,需要从法律、道德等方面制定相应的条款,约束人们的行为。知识管理存在的问题是:数据积累不充分、不全面,业务模型构建困难,缺少有经验的实施者,需要进一步加强数据挖掘语言的标准化,迫切需要类似于关系模式、DBMS系统和SQL查询语言等理论和方法的指导,以使其应用得以普遍推广。
  未来的数据挖掘研究焦点将集中在以下几个方面:(1)算法设计仍是数据挖掘的研究核心。(2)数据挖掘商业软件的研究仍然集中在接口的高性能、可扩展性,通过支持DMS和DMQL增加系统的灵活性等方面。(3)挖掘Internet的分布式和高度异质的数据,并且能有效地和操作型系统集成,提供了数据挖掘系统和预言模型系统间的有效接口。(4)挖掘嵌入式系统、移动系统和普遍存在ubiquitous计算设备产生的各种类型的数据商业系统将要问世。(5)人们正在寻求数据挖掘过程中的可视化方法,使得知识发现的过程能够被用户理解,便于在知识发现过程中的人机交互与知识的维护更新。(6)研究在网络环境下的数据挖掘技术,特别是在Internet上建立DMKD服务器,与数据库服务器配合,实现数据挖掘。
  注:“本文中所涉及的注解、表格、公式等请以PDF格式阅读原文。”
其他文献
可乐定通过对脊髓的直接作用发挥镇痛作用,而不具有阿片样副作用。为研究可乐定在小儿骶管阻滞中的应用,选择45例行脐平面以下手术的1~7岁患儿,进行随机双盲研究。术前1h口服
自火炬计划实施以来,在火炬的旗帜下,我国已经有成千上万家有竞争力的高新技术企业成长起来,在很多领域夺回了相当的市场份额,已经成为国家或地方重要的新的经济增长点,成为
Fe (Si) solid solution being selected as a model material, the single crystal growth of solid solutionhas been achieved by melting zone of different composition
川崎病的临床探讨深圳市人民医院儿科(518001)肖永红,朱松杰,徐位仁川崎病是以全身性血管炎为主要病理基础的发热性疾病,可累及冠脉、心、肝、肾等,尚伴有血凝状态增高。冠状动脉瘤及冠状
这是一个真正消防队员的故事;这是一个真正艺术家的奋斗 历程。作为一个消防队员,他用手中的相机记录着他所从事的事业;作为一个艺术家,他用自己的独特视野和炽热的情感,为我们创
癫痫患儿治疗中苯妥英钠中毒4例莆田市涵江医院王连治,王天恩现将我院儿科近几年收治的4例苯妥英钠中毒患儿报告如下。一、临床资料4例中,男3例,女1例;年龄4岁1例,10岁2例,6岁1例。发作类型:全身
雷锋以及经过提炼的雷锋精神曾作为中国社会道德的“理想之灯塔”照亮了成千上万中国青少年的心灵并成为中国青少年人生行为之指南,其精神甚至影响到世界。然而,曾几何时,“
1  高考终于结束了。从儿子庞毅那张紧绷的脸上,我可以窥见他考得很不理想。想要问问具体情况,却被老庞制止了。他小声说:考得好考不好都过去了,这个时候咱们千万别给孩子添堵,当务之急就是让他放松、放松!  可怎么才能放松呢?庞毅说:妈,你给我买个“爱疯”吧!这样我也能多点上网接收各方面的信息,顺便放松放松心情。  “爱疯”有点贵,可我想着孩子一直都在用老人机,眼见马上就上大学了,提这点要求似乎也不算太
2009年,南通市通州区植保站选用康宽20%氯虫苯甲酰胺悬浮剂、5%丁烯氟虫腈乳油等药剂对稻纵卷叶螟进行防效试验,取得了较好的防效,为大面积应用提供了依据。试验设每亩用康宽
“一见钟情、钟爱一生”,是新一代350Z所要表现的精神。从1969年第一代的Fairlady Z诞生至今,Z跑车一直作为日产的旗舰跑车傲视群雄。从240Z 260Z、280Z、300Z、到350Z型号,F