论文部分内容阅读
随着人类经济的发展,人类对大自然的开发和利用使得土壤重金属污染问题日益突出。合理划分禁产区是当前农业生产的一个重要任务,针对农产品产地安全等级边界确认和禁产区划分技术实现难、随意性大和准确度低等实际问题,本文根据农田土壤中重金属含量空间插值技术的适用条件、数据质量需求、计算过程及精度控制方案,将机器学习算法应用于农产品产地禁产区划分上,解决禁产分类预测问题。 本文以湖南湘潭市土壤重金属样本数据为研究对象,研究禁产区划分技术。重点研究机器学习算法在禁产分类上的应用对比、参数优化及改进,然后开发基于GIS的农产品产地安全等级边界确认和禁产区划分系统。论文主要工作如下: (1)研究禁产区划分技术流程,在实验区进行数据采集,对数据进行预处理,建立地理空间数据库。采集了945个样本包含土壤和农作物中Pb、Cd、As、Cr、Hg五种重金属元素的含量、土壤PH值等,剔除数据中异常值、正态分布校验,对重金属元素进行相关分析、主成分分析和数据的离散化处理,为机器学习禁产分类模型实验做好了数据准备工作。 (2)研究基于聚类分析的非监督学习和三种基于经典监督学习的禁产分类模型的应用过程。对比分析评价了层次聚类分析、K-means和高斯混合分布模型聚类分析方法的聚类结果;研究确定影响决策树 C4.5算法分类准确率的主要因素为训练集数量;研究对比三种不同AdaBoost弱分类器训练模型的分类结果,得到最优的Modest AdaBoost训练模型;对比基于网格搜索、粒子群优化、遗传算法的SVM核函数参数寻优算法以及研究了SVM核函数选择策略,得到了最优参数的SVM-RBF模型。 (3)提出基于土壤重金属空间分布特性的禁产分类模型,给出模型的算法流程,并通过实验得到了模型的最优参数及验证了模型的可行性,最后通过实验对比其他常见监督学习算法的分类模型的准确率、算法时间和分类边界效果。结果表明,本文提出的模型准确率最高,算法耗时较短,分类边界更明确,从而可以确定为该实验区最优的机器学习禁产分类模型。 (4)禁产区划分系统的可视化研究。结合R语言在机器学习方面的优势,以PypeR为中间件在ArcGIS中调用R中的机器学习包,增强ArcGIS在机器学习方面的功能,发布ArcGIS机器学习分类和插值服务,设计开发了禁产区划分系统和多机器学习禁产分类可视化桌面软件。实践表明,机器学习在产地禁产区划分上能够得到良好的实际应用。