论文部分内容阅读
用于榨糖的蔗糖生产比较特殊:一是甘蔗有别于水稻、小麦等作物,收获对象是植株体内的糖份,直观性不强,需要通过检测判断成熟度:不存在种子休眠现象,收割后糖份呈现快速消耗,不能长时间存储;糖份达到最高值后,会出现糖份被消耗的回糖现象,成熟后必需尽快收割。二是蔗糖生产是工业与农业的结合,经济因素制约了榨糖企业的日榨能力,从而限制了甘蔗的收割必需持续一个较长的时间段;加上品种等方面的差异,存在优化收割的需求。同时,两者的结合使工业能够发挥更多的积极作用,不仅表现在企业对蔗农的资金、技术的支持上,榨糖企业记录的进厂时的糖份数据蕴含着农业生产的大量信息,通过数据挖掘可以将有用的知识反馈给农业生产,尤其是优化收割方面。 数据挖掘的工作就是从大量数据中提取人们所感兴趣的潜在的知识和信息。榨糖企业的按质论价体系产生了大量进厂时的糖份数据,为数据挖掘提供了条件。本文针对甘蔗糖份数据的实际情况,详细介绍了数据挖掘中的三个基本任务:探索性数据分析、预测建模和聚类分析。 在甘蔗糖份的可视化数据探索中,发现了管理疲劳现象,给出了管理疲劳现象的描述及相应的对策。通过可视化数据探索,还发现了各品种之间的优化方法:与现行的先收割糖份最高的甘蔗的做法不同的是,收割相对增产潜力小、较成熟的甘蔗品种可以达到全局最优,能够提高甘蔗总糖份。 甘蔗的糖份积累模型对于估产、确定榨期有着重要的参考作用。二次曲线、分段Logistic曲线是现有文献中出现的两个甘蔗糖份积累的数学模型,哪一种模型更适用于估产是本文预测建模探讨的内容。利用甘蔗糖份数据,采用回归预测的方法分析得出Logistic曲线更适于表达大规模生产条件下的糖份波动。 榨糖企业与种蔗单位的关系可以看作是一种特殊的客户关系,虽然不存在客户获得、客户保持,但是良好的客户管理对于甘蔗收割的优化是有帮助的。聚类分析是客户关系管理中最常用的一种数据挖掘技术。本文采用K平均聚类分析的方法,根据不同周次糖份的高低对甘蔗品种、种植单位进行聚类。依据聚类的特点,为不同时段确定收割重点提供依据,为管理人员研究糖份高低的栽培原因提供了参考,同时也为榨糖企业对种蔗单位的资金、技术的支持提供了决策参考。