论文部分内容阅读
知道某事物的样本数据却不知其类标号属性时,一般只能对样本集进行聚类分析,但是聚类的结果在很多情况下是无法直接解决问题的。相反决策树算法以高准确性和实用性著称,但是决策树的建立需要对拥有类标号属性的样本数据进行训练,而现实是很多事物的样本数据缺少所需要的类标号属性。如何将这两种类型的算法结合起来达到优势互补的目的,是本文探讨的重点。
本研究主要内容包括:①对决策树C5算法进行研究。利用SPSS软件根据泉州初中学生3年数学成绩建立C5决策树,并对生成的决策树进行合理的分析。从而指导教师在恰当的时期有针对性对学生进行辅导,来提高中考及格率和优秀率,并为以后更详细的教学成果数据分析奠定了基础。②对模糊聚类算法进行研究。对长江流域主要城市水质的检测数据进行聚类。对三项污染指标的聚类结果进行合理的分析,以期发现被严重污染的水域和地区间污染的相关性,为彻底根治水污源头提供理论上的支持。③对聚类分析与决策树分类的结合点进行探讨。以聚类同分类的根本区别为切入点,在程序流程方面提出了一种新型的结合应用:利用层次聚类辅助决策树C5分类建模。提供了一种对缺少类标号属性的样本数据进行类标号填充后再进行分类的手段。本文的研究解决了当样本数据缺少类标号属性时无法进行决策树分类的问题,是聚类与决策树分类结合的深入应用。可以在满足应用所需特殊精度的要求下,把代价昂贵的分类手段转化成较为低廉的分类手段,在药品临床研究领域具有重要的意义。