面向缺失数据的变精度粗糙集决策树分类算法研究

被引量 : 6次 | 上传用户:jiangzhaomaomao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘技术在各个领域的广泛应用加快了人们探索大量数据背后隐藏信息的步伐。人们希望借助数据挖掘的方法对严重威胁人类健康的冠心病进行有效的研究,而决策树分类算法作为数据挖掘技术中的数据分析方法,高精度的分类准确率、直观的决策结果、较高的泛化能力使它成为研究冠心病的较理想方法。但是,由于缺失值以及噪声数据的存在,我们得到的分析结果并不能用于实际中的冠心病诊治工作。因此,本文针对缺失数据处理和决策树分类对噪声数据敏感的不足,提出了相应的改进办法。本文的主要研究内容主要分以下几个方面:(1)冠心病数据自身的特点决定了它的属性值多为离散类型的,而现存的KNN填充算法只适用于处理连续型属性并且未充分考虑缺失事例之间的联系。因此,本文提出了一种既可以处理离散和连续类型属性又能充分利用其他所有事例对该缺失事例的影响程度进行有针对性的填充。该方法使用灰色系统中的灰色关联分析理论选取与需要填充的数据事例最相似的K的事例,根据这K个事例携带信息量的大小使用加权平均的方法对缺失的数据值进行填充。最后用标准UCI数据集的对比实验说明本文提出的填充算法优于其他的算法。(2)几乎所有的数据集都存在或多或少的噪声数据,冠心病数据集中的噪声数据对决策树分类的结果影响较大。为此,本文提出了一种基于尺度函数的变精度粗糙集属性选择标准,该标准同时考虑属性的加权近似精度和属性值个数,提高了对噪声数据的抗干扰能力,减弱了属性选择时的偏向性,提高了分类精度。同时在树的预剪枝过程中引入抑制因子阈值、支持度和置信度,简化了树结构。通过标准UCI数据集的对比实验说明本文提出的改进算法优于其他的决策树算法。(3)将本文提出的填充算法和决策树改进算法以决策树模块的形式嵌入冠心病中医辅助诊疗系统中,实现对冠心病数据集的中医诊断证型的分类。
其他文献
中国的陶瓷艺术历经数千年的演变和发展,经历了无数的辉煌。时至今日,工业化的大生产使生产陶瓷的时间缩短,成本降低,造成了陶瓷手工技艺的流失。目前国家开始致力传统手工艺
随着移动终端技术的不断发展,手机应用程序已经深入到各领域各层次。声学作为反映人类性格特点最直白的方式,当然被广泛应用到各媒体平台中。常见的有播放器,视频等等。而这
论文从旅游在线预订这个旅游电子商务最核心的环节入手,结合中国旅游在线预订的产生背景和发展概况,对旅游在线预订的发展困境展开深入阐述,同时提出具体的发展对策。
加强对农业机械的维修和保养成为当务之急。本文就农业机械维修与保养存在的种种问题以及使用过程中常见的问题进行了分析与探讨,并针对上述问题提出了有效的解决措施与保障手
景颇族在长期的劳动实践过程中创造了丰富多彩的民族文化,作为云南特有的跨境少数民族,其民族传统舞蹈显得尤为古老。其中最典型的舞蹈形式就是目瑙纵歌。目瑙纵歌是集景颇族的
控制权市场作为十分重要的公司治理外部机制,一直受到广泛关注,其中公司控制权市场能否有效发挥作用,控制权市场中的控制权转移行为能否提高目标公司价值,影响控制权市场效率的因
本文以济南市给水系统为主要对象,系统研究了其化学稳定性及控制方法,主要内容如下:(1)根据济南市给水系统特点,确定水质化学稳定性评价指标体系;(2)开展给水系统水质化学稳定
生产性服务业指的是为了保持工业生产过程中的连续性、促进工业技术的进步、社会产业的升级、提高生产的效率提供保障的服务性行业。它作为与制造业直接相关的配套性服务业,是
随着我国经济的不断进步,我国选矿设备得到了不断的发展。我国矿产行业在实际的发展过程中,取得了很大的成就,同时也带动了其他行业的发展。在通常情况下,选矿设备在比较恶劣
目的 探究KTH整合式护理干预对妊娠并发甲状腺功能减退症患者遵医行为及妊娠结局的影响。方法 选择114例妊娠并发甲状腺功能减退症患者,依照入院顺序分为对照组(57例)和观察