基于粗集理论的数据挖掘中数据预处理的方法研究

来源 :长春理工大学 | 被引量 : 0次 | 上传用户:kaka43210
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于经典的粗糙集理论不能处理原始数据资料中的遗漏信息以及含有连续属性的数据,需要对这些数据进行补齐和连续属性离散化才能用于知识获取。因此数据预处理在粗糙集理论应用中非常重要的一环,其结果将直接影响到粗糙集理论应用的效率,准确度。所以有关基于粗集理论的数据挖掘中数据预处理的方法研究具有非常重要的意义。 本文对基于粗集的数据预处理中数据补齐和连续属性离散化问题进行讨论。 首先,对目前主要的离散化算法进行分析和评价,以中值序列分割点集为基础,提出了一种连续、离散混合离散化改进算法,保证划分后决策表相容性,获得合理的划分点。 其次,分析了当前主要数据补齐算法的特点和不足,并针对已有的基于粗糙集理论的不完备系统补齐算法ROUSTIDA的缺陷,提出了改进的数据补齐算法,使更多的缺损数据得到填补,尽量避免可能导致的决策规则矛盾问题。
其他文献
虚拟仪器(VirtualInstrument,简称VI)是在计算机基础上通过增加相关硬件和软件构建而成的、具有可视化界面的仪器。虚拟仪器突破了传统仪器在数据处理、显示、传送、存储方面
互联网技术的发展已经在逐渐的改变人们的生活,社交网络的兴起使得人与人之间的联系更加方便,同时一些商家借助于网络,利用一些名人的“口碑效应”进行某产品的推广,使得该产
石油勘探开发是石油工业的重要部分,直接决定了石油产量,在石油勘探开发过程中,会采集到大量的三维地震数据。 本文根据三维地震数据特点,围绕海量数据的读取和运算、数据的管
防火墙与入侵检测作为保障网络安全的重要技术手段被广泛应用,但现有的安全方案往往将防火墙与入侵检测系统分开单独使用,这样不能满足网络安全整体化、立体化的要求。 实现
当今信息技术发展迅速,为无线传感器网络(WSN,wireless sensor network)的发展创造了良好的环境。传感器网络有着广泛的应用,并存在大量的研究,WSN已慢慢融入到人类生活的各
现有的网络编码与P2P技术结合的数据分发方案对网络性能有所限制,若信源节点以网络的组播容量来确定数据的发送速率将会导致大量链路空闲浪费网络资源,然而源节点的发送速率
科技的进步和信息技术的发展使世界进入了前所未有的全球化时代,未来企业要想在竞争中立于不败之地,必须能够纵观历史和洞察未来趋势,以快速做出决策,而快速决策来自于对市场、客
无线传感器网络用于收集和传输环境数据,由大量无线的低功耗小传感器组成。这些微小的传感器节点具有数据处理、通信和感应部件。通常,传感器节点的价格都很便宜,以便于能够
虚拟机(Virtual Machine,VM)是相对我们平常所用的实际的计算机而言的一个概念,它是一个假想的模拟实际计算机进行工作的软件系统,同真实计算机一样,虚拟机有自己的中央处理器,指
为遏制当前校园内盛行的学生为完成作业相互抄袭之风,我们开发了一个论文甄别系统。这个系统利用现有的网络搜索引擎下载与学生上交的论文相关的文章,并自动把学生论文和下载