论文部分内容阅读
朴素贝叶斯分类方法是简单的贝叶斯分类方法,在众多分类方法和理论中,朴素贝叶斯由于计算高效、精确度高,并具有坚实的理论基础而得到了广泛应用。朴素贝叶斯方法要求属性取离散值,并假定在给定分类特征条件下属性值之间是相互独立的,同时认为每个条件属性对分类特征的重要性是相同的。但是这在真实数据中不一定成立,此为朴素贝叶斯方法的局限性。
本文详细介绍了贝叶斯理论、贝叶斯分类器模型,详细阐述朴素贝叶斯分类器模型的优点和局限性,针对局限性,详细介绍常用的连续属性离散化方法,阐述它们各自的优缺点。在连续属性离散化、学习属性权重这两方面提出了改进朴素贝叶斯分类效果的两个方法:进一步改进的基于熵的连续性属性离散化方法、N—Boost—加权朴素贝叶斯算法。最后,通过实验验证了本文提出的两点改进可提高朴素贝叶斯分类器的分类准确性。
本文在离散化时将连续属性分为5类,但是将连续属性划分为多少类最佳有必要进行进一步的讨论;同时,本文的N—Boost算法在调整权重时使用的函数是否最优,这一问题也值得进一步探讨。