论文部分内容阅读
近年来,雾霾天气越来越大范围和频繁的发生,其严重影响人们的身体健康和人们的正常生活,其中又以雾霾的主要产生原因即细微颗粒物PM2.5更是人们关心的热点话题;尤其在每年冬季中国大部分城市都会遇到雾霾高频发高峰期,在雾霾天气中PM2.5浓度很高,对人的身体造成危害会更加严重,其增加呼吸道感染的风险和加重心肺疾病、心脑血管病等症状;空气质量问题不仅给人类健康造成了严重影响,同时对人们的生活出行造成困恼。随着人们的生活质量不断提高,不仅对健康意识有所提高,也迅速提高了对空气质量的关心度。在空气质量状况日益严峻的情况下,只进行空气质量实时监测和发布往往满足不了人们的需求。对空气质量未来状态的变化趋向进行探究,展开空气质量监测、预报任务,对空气污染的防预治理和人们的健康、生活都有着重大现实意义。基于上述问题研究背景本文所研究就是针对空气质量的重要指标之一细微颗粒物PM2.5浓度建立预测模型;以便对这项影响到人们正常生活的污染物浓度做出精确预报,提供未来某段时间的细微颗粒物浓度信息。本文研究的主要内容为:首先,主要介绍了网页爬虫程序涉及的相关技和具体的程序实现过程,该程序能够自动获取一些实时公布的污染物浓度数据和气象数据;同时也介绍了程序具体编码实现中遇到的技术难题和解决方法。其次,探究影响细微颗粒物PM2.5浓度的关键因素,详细的分析了PM2.5与影响因素之间的相关性;同时又考虑到本文抓取是实时发布的时序序列数据,显然过去的污染物浓度和气象条件状态对未来PM2.5浓度变化会有滞后性影响,因此在本文中利用了自回归滞后模型相关理论分析了各个影响因素滞后性对PM2.5浓度变化影响,确定了各个因素的滞后期阶数,以便更好的选择输入特征向量,这为建立模型确定输入特征提供了有力基础。然后,系统性的阐述了本文所用的核心算法支持向量回归机相关知识及算法思想。支持向量机是一种较流行的分类技术,有着扎实的统计学理论基础,并在许多实际应用中展现了不错的实践效用。起初支持向量机的应用是应用在分类问题上,后来人们对其进一步拓展到回归应用问题中,也就出现了支持向量回归机,并在数据预测领域开辟了新的途径。最后,本文详细描述了建立预测模型的步骤,分析试验结果,并根据评价指标检验预测效果。本文在数据库中选取了自2015年7月1日至2015年12月28日成都市的PM2.5浓度、其他空气污染物浓度以及天气因素等历史每小时数据,经过相关性分析和滞后性分析之后,确定各个影响因素的滞后期阶数;再利用支持向量回归机算法建立单步预测模型,在模型调整合适的参数下,考虑到各因素的滞后阶数不同,模型输入向量个数会有所不同,从而对模型预测结果产生影响,因此对多种滞后期阶数的选择给模型带来效果差异进行分析与比较;试验结果表明在不考虑影响因素滞后性比考虑滞后性的预测效果要差,同时考虑的滞后阶数为2、3期时预测效果最好,而且滞后阶数越长预测效果也逐渐变差。在做单步预测时,考虑滞后阶数为二期时,模型评价指标MSE值为16.6,R2值为0.9667,MAPE值为0.0522;不考虑滞后性时,模型评价指标MSE值为23.41,R2值0.9533,MAPE值为0.0628。整体上利用支持向量回归机模型对PM2.5浓度的单步预测效果还是比较理想。之后,在基于单步预测的基础上,以最佳的滞后阶数建立了多步预测模型,并对多步预测的结果做了综合比较分析;由于在进行多步预测时,每步预测都需要上次预测的输出作为输入,所以在这种迭代的过程中,上一次的预测结果会影响在接下来时间点的预测结果,误差也就会逐步积累直到最后,预测效果逐步减弱。结果分析显示,利用支持向量回归机(SVR)建立预测模型能精确地预测未来时段的PM2.5浓度,并有着较高的推广能力。