论文部分内容阅读
城市空气污染是目前我国最为严重的环境污染问题,其不仅对我国的经济造成了严重的损失,而且给我国城市居民的身心健康带来了巨大的隐患。因此,防范和治理空气污染迫在眉睫。防范空气污染必须进行空气质量的预测和预报。及时精准的空气质量预测不仅能够帮助城市管理者做出科学有效的防治措施,并且可以为城市居民的出行提供更加健康安全的策略。目前,我国空气监测体系正逐渐完善,其规模不断扩大,海量的空气质量数据不断堆积。数据规模的迅速膨胀,空气质量预测技术的传统方法已无法处理这些海量的数据。鉴于上述原因,论文展开了基于大数据处理技术的空气质量预测方法的研究。主要研究工作如下:首先,针对海量的空气监测和气象数据分析的挑战,为了实现空气质量的预测,本文搭建了Hadoop大数据平台。其方法是在PC上利用VMware软件创建3台Linux虚拟机并在虚拟机上安装和配置JDK,接着在每台虚拟机上安装Hadoop软件并对core-site.xml、hdfs-site.xml、mapred-site.xml以及yarn-site.xml等文件进行配置,然后格式化名称节点和启动Hadoop集群。其次,为了获取空气监测和气象历史数据,本文利用python实现了网络爬虫技术,并从天气后报网以及TuTIempo网上抓取了全国主要城市4年的PM2.5、PM10、CO、NO2、O3以及SO2等六种空气污染物浓度数据和温度、湿度、风速、风向以及降水量等五种气象数据。面对所抓取的杂乱数据,数据的清洗又成了一项重要的工作,只有经过清洗后的数据才能方便空气质量的预测。本文数据清洗主要是针对数据中的一些缺失值和异常值进行了填补和纠正。此外,针对城市和风向等非数值数据进行了数值化处理,为了方便神经网络模型的训练又进行了数据归一化处理。最后,论文提出了在大数据平台下的基于BP神经网络的空气质量预测方法。其思想是利用Hadoop平台中的MapReduce并行计算框架实现传统BP神经网络的并行化处理,以提高BP算法的对海量数据的处理能力和训练速度。论文首先建立了空气质量预测的神经网络模型,该模型选取了当日气象因素、前一日的六种污染物浓度和对应的城市作为模型的输入量,当日六种污染物的浓度作为输出量,并通过实验确定了模型的参数。根据所建模型,论文通过编程设计和实现了基于MapReduce-BP神经网络的空气质量预测方法。综上所述,本文主要在Hadoop平台下,以传统BP神经网络算法为核心,实现了空气质量的预测。该方法解决了在大规模数据环境下,空气质量的预测问题。