数据挖掘中约简技术与属性选择算法的研究

被引量 : 0次 | 上传用户:qnwy2051
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
约简以及属性选择都是数据挖掘中的重要技术,人们一直致力于寻求快速的约简算法,以及如何删除无关属性与冗余属性。本文就这两方面问题进行了研究与讨论。在对数据挖掘进行概述之后,提出了基于素数性质的布尔函数约简算法,然后综述前人在属性选择领域所作的工作,最后提出了两个属性选择算法。在第二章提出了基于素数性质的布尔函数约简算法,主要思想是用素数表示布尔变量,以算术运算代替逻辑运算。本文重新定义了布尔系统,并且用新系统中的公理与规则描述了原有布尔系统的定律,因此,基于素数性质的布尔系统具有完备性。该算法运用于粗糙集属性约简中,可以减少空间消耗,同时提高时间效率。第三章对属性选择进行综述,总结该领域的现有成果,描述一些经典算法,并分析其优劣。第四章首先介绍了列联表,并且论述了列联表与皮尔逊卡方统计量的关系。然后论述了常用的相关性度量准则。之后提出了基于卡方统计量的属性选择算法,算法的主要思想是计算各个属性与分类属性的卡方值,卡方值越大,相关性越强,将属性按照与分类属性的相关性,划分为三个等级,分别为强相关、相关和弱相关,在强相关属性子集中找到最弱强相关属性,以最弱强相关为判定相关的阈值,在弱相关属性子集中找到最强弱相关属性,以最强弱相关为判定独立的阈值。将强相关属性子集中的冗余属性删除,得到强相关约简属性子集,然后将相关属性子集中与强相关约简属性子集所有属性都独立的属性选择出来,将弱相关属性子集完全删除。最后采用NIPS2003数据集为实验数据,给出实验结果,并将结果提交到NIPS2003网站,由该网站平台给出各项参数的评价结果。第五章提出了相关性概率的概念。将卡方值转换为独立性置信水平,求得相关性概率。然后提出了位差的概念,以及正位差属性、零位差属性和负位差属性等概念。之后提出了基于位差的属性选择算法,其主要过程是将负位差属性删除。该算法是针对离散型属性的,因此,在进行属性选择之前,采用Kmeans算法以无监督的方式将各个属性离散化。最后,将NIPS2003数据集的实验结果提交到该网站。
其他文献
估算了珠江三角洲地区2006年大气面源污染物的排放清单,并利用2006年珠江三角洲人口分布栅格数据作为代用空间分配权重因子,建立了该地区大气面源3km×3km的SO2、NOx、PM10和
中国与印度同作为两大新兴经济体以及发展中大国,加之中印地理位置较近,两国经贸往来密切,合作领域广泛。本文通过分析中印双边的贸易现状及投资现状,了解中印双边经贸合作的
语文阅读教学,关键在于读,美读就是我国阅读教学中普遍运用的一种重要方法。但由于受应试教育的影响,中学语文阅读教学普遍存在着重文轻语的现象,语文课片面强调对课文思想内
完全成本法与变动成本法是管理会计中两种非常重要的成本核算方法,这两种方法对于成本的切入角度不同,因而在产品成本、存货计价、税前利润等方面都存在着很大的差异。本文拟
本文通过混凝/微滤工艺对青草沙水源水水厂的生产废水开展了回用处理研究,分析了常规污染物、微量有机物、金属离子的去除规律和消毒副产物生成趋势.结果表明,混凝预处理可以
在中央颁布"八大规定、六项禁令"后,饭店行业有了战略转型趋势,酒店将更着重提升以企业人力资源为主的核心竞争力。然而,由于旅游饭店劳动密集型的特征,致使其在人力资源管理
目的:本研究的目的是通过对高尿酸血症的病人,尝试采用健脾渗湿法,促进肾脏排泄,使脾胃运化功能正常,以期达到湿邪不能内生之目的。从而找出一个治疗痛风病之有效的方法。 方法
食品药品安全直接关系到群众的切身利益,当前我国食品药品安全问题突出,我国现行食品安全监督管理体制存在诸多不足,机构重叠,职责交叉,因此,食品药品监管部门的改革是当前转
虚拟现实技术作为一门在二十世纪末才兴起的崭新的信息技术,在许多不同的领域有着广泛的应用,具有良好的发展前景。目前,很多高校都对桌面虚拟现实系统做了研究,但是都不同程
村镇银行作为一种新兴的银行业金融机构,已经成为中国金融体系中的重要组成部分。随着中国城镇化进程的加快,村镇银行正在蓬勃发展。但是,囿于信用体系缺失、专业人才匮乏、