论文部分内容阅读
数据挖掘技术在各个领域的广泛应用加快了人们探索大量数据背后隐藏信息的步伐。人们希望借助数据挖掘的方法对严重威胁人类健康的冠心病进行有效的研究,而决策树分类算法作为数据挖掘技术中的数据分析方法,高精度的分类准确率、直观的决策结果、较高的泛化能力使它成为研究冠心病的较理想方法。但是,由于缺失值以及噪声数据的存在,我们得到的分析结果并不能用于实际中的冠心病诊治工作。因此,本文针对缺失数据处理和决策树分类对噪声数据敏感的不足,提出了相应的改进办法。本文的主要研究内容主要分以下几个方面:(1)冠心病数据自身的特点决定了它的属性值多为离散类型的,而现存的KNN填充算法只适用于处理连续型属性并且未充分考虑缺失事例之间的联系。因此,本文提出了一种既可以处理离散和连续类型属性又能充分利用其他所有事例对该缺失事例的影响程度进行有针对性的填充。该方法使用灰色系统中的灰色关联分析理论选取与需要填充的数据事例最相似的K的事例,根据这K个事例携带信息量的大小使用加权平均的方法对缺失的数据值进行填充。最后用标准UCI数据集的对比实验说明本文提出的填充算法优于其他的算法。(2)几乎所有的数据集都存在或多或少的噪声数据,冠心病数据集中的噪声数据对决策树分类的结果影响较大。为此,本文提出了一种基于尺度函数的变精度粗糙集属性选择标准,该标准同时考虑属性的加权近似精度和属性值个数,提高了对噪声数据的抗干扰能力,减弱了属性选择时的偏向性,提高了分类精度。同时在树的预剪枝过程中引入抑制因子阈值、支持度和置信度,简化了树结构。通过标准UCI数据集的对比实验说明本文提出的改进算法优于其他的决策树算法。(3)将本文提出的填充算法和决策树改进算法以决策树模块的形式嵌入冠心病中医辅助诊疗系统中,实现对冠心病数据集的中医诊断证型的分类。