论文部分内容阅读
本文主要是针对数据挖掘中的分类算法进行研究。在分析已有算法的基础上,提出了自己的改进算法,并且利用实验对算法的性能进行了分析,对其中涉及到的改进的原因、改进的途径、改进的效果都做了详细的讨论。
在引入条件概率估计方法ME(M-Estimate)和TE(Traditional Estimate)以后,提出了自己的关于条件概率的估计方法CE(C-Estimate)和SE(S-Estimate)。在认真分析实验结果的基础上,回答了 “每种估计的效果和特性”以及“为什么要提出新的估计”的问题。然后借助自定义的指标差异度ψ,仔细比较四种估计方法在欠学习情况下对贝叶斯分类器性能的影响,并谨慎地选择了ME和CE,结合两者的优势提出了基于ME&CE融合的贝叶斯分类算法的改进算法。
在对算法实现做了大量的优化工作之后,分类器运算速度得到了大幅度的提高。在分类器实施过程需要注意的一些问题在文中也进行了阐述。在数据简化方面,利用互信息和自定义的β值衡量每个属性的分类能力,用以去除不相关的属性。特别要提及的是,我们给出了针对贝叶斯分类器训练和分类指标α的计算的优化算法,并且对算法的优势在理论上给出了分析。