论文部分内容阅读
数据是提取有效信息、制定科学决策、驱动农业现代化发展的重要力量。我国是农业大国,农业在国民经济中处于基础地位,悠久的农业历史使我国在生产、流通、消费等各个环节中都积累了丰富的数据。近年来,随着农业现代化进程加快及乡村振兴战略的提出,各种信息技术快速涌入农业领域,农业数据量呈现爆炸性增长态势。我国农业目前因信息技术滞后、数据涵盖面广、数据源复杂、与时空密切相关、生产周期长的特点,数据质量问题层出不穷,数据集中不仅存在许多一般的异常数据,还存在许多看似正常,实则产生于完全不同机制的异常数据,数据分析工作面临着“数据丰富、信息贫乏”的困境。在大数据时代,既无法杜绝异常数据的产生,也难以通过技术手段将其消除。因此,构建异常数据检验模型,从数据集中挖掘出看似正常实则异常的数据,找出其背后隐含的信息,并加以利用,力求制定出更多科学决策具有重要意义。本文以两个异常数据检验工具——Benford定律、SVR为基础,构建了Benford-SVR异常数据检验模型,分析了农业自然领域的降水量数据集和社会领域生产数据集,丰富了我国农业数据异常检验的理论和技术手段,展望了异常数据检验模型未来的发展方向。首先,本文从研究背景和意义展开,以提高异常检验的效率和准确率为目的进行了相关方法研究,选择了Benford定律和SVR两个异常数据挖掘有效工具,阐述了Benford定律以数据集首位数为1-9的概率满足的一个固定对数分布的特点筛选异常数据池的基本原理,以及SVR有强大的非线性映射能力,能从整体上考虑回归曲线的平滑性,不倾向于消除个别大的回归误差的异常点挖掘的方法;其次,针对Benford定律筛选异常数据集效率高,但范围略大,而SVR挖掘异常数据点精度高、鲁棒性高,但主要面向小样本的特点,借助于组合模型的思想,构建了Benford-SVR异常数据检验模型,该模型在Benford定律筛选出异常数据池的基础上,选定高质量数据集作为SVR的训练样本,异常数据池中的数据作为预测样本,从中挖掘异常数据;再次,用Benford-SVR异常数据检验模型对我国65年降水量数据集、河北省7个市4年生产数据集进行实证分析,得出我国降水量数据集整体及局部质量都较高,而河北省沧州、邯郸、邢台数据集质量较好,而保定、石家庄、唐山、张家口数据集可疑,并从中挖掘出异常较大的数据点;最后,根据实证分析结果,指出了Benford-SVR异常数据检验模型是检验农业自然科学领域及社会科学领域的有效方法,快速准确的挖掘出数据集中的异常数据点,但无监督学习模式会存在偶然性误差,后续工作中要对异常数据点加以识别,力求能挖掘其背后隐含的有效信息。本文研究结果表明:Benford-SVR异常数据检验模型能有效检验自然科学领域的降水量数据集、社会科学领域的生产数据集,高效、精准的挖掘其中异常数据点,优势显著。未来的发展需要各领域学者深入研究其本质,加强对其它算法的研究结合,进而改善、拓展其应用,加强农业数据异常挖掘的效率和精度,提高农业领域的数据利用率,促进农业发展。