论文部分内容阅读
近年来,我国经济的良好高速的发展,但是由于前期在发展的过程中人们环境保护意识淡薄,导致了当前社会经济发展和环境保护之间的矛盾。随着人民的物质需求和整体素质提高,对环境质量,尤其对水资源的质量要求越来越高,从而使得从中央到政府出台各种政策促进水资源的保护,同时也令水质监测行业得到迅猛的发展。尽管目前整个水质监测行业呈现出发展迅速的现状,但是整体技术水平仍然较为落后。在水质监控系统的开发方面,目前众多水质监控系统通过阈值的方法进行预警,没有考虑整体水质情况,从而造成了大量的虚报和误报。在对相关人员发送预警信息时,提供的信息一般仅有异常站点名称和超标指标,少量的信息增大了相关人员进行异常的解决和判别的难度。在发生水质异常后系统不能提供一个水质知识平台用以供相关人员进行参考和学习,增大了解决问题的成本。机器学习和知识图谱是近年来的研究热点,机器学习能够挖掘数据存在的潜在模式,而知识图谱能够探测不同实体之间存在的潜在的因果关系,故构建以机器学习与水质知识图谱为核心的水质监控系统,并对相关算法和理论展开研究和水质监控系统的设计与实现。本文主要进行了以下研究工作:(1)对水质数据的来源与获取方式进行了介绍,并对水质数据进行了分析,发现水质数据存在特征维度低、异常数据少且分布较为稀疏、局部异常点较多、水质类别的特征不是依赖于单一指标等特点;提出并分析了多种异常检测算法,包括局部异常因子算法(Local Outlier Factor)、单分类支持向量机(one-class Support Vevtor Machine)、孤立森林以及深度孤立森林等,对孤立森林进行了并行化研究并构建了并行化孤立森林;通过实验与分析发现孤立森林由于沿轴平行划分数据存在着重叠和覆盖效应,导致了在识别局部异常点上和复杂数据模型上准确率较低,故引入深度孤立森林,通过实验与分析,深度孤立森林不仅在水质异常数据的性能优于孤立森林和其他两种算法,在局部异常点和复杂数据模型的异常识别上表现仍然很好,并且由于深度孤立森林具有提前停止的算法特性,故能够节约一定的时间开销。(2)通过对水质预警策略的研究划分了水质的预警等级和制订了水质预警的流程,由于本文希望在水质预警的同时为相关工作人员提供更多有用的信息,并能够提供一个水质知识的查询平台,故引入知识图谱概念,并对其相关任务实体识别、关系抽取、知识问答等知识图谱相关任务进行了理论介绍以及进行多种算法的仿真与分析,发现在实体识别方面基于Multi-head Attention的LSTM算法性能较优,在训练集和验证集的准确率皆能达到99%以上;在关系抽取方面考量了实体相对位置关系的PCNN的性能无论是在数据集1,还是在数据集2都远远优于其他三种算法;在知识问答方面采用基于模板规则匹配的方法并进行了效果的展示。(3)设计与实现水质监控系统。对系统进行了需求分析,确定模块分布;对系统架构、技术路线以及数据库进行了设计;实现了包括权限模块、用户模块、数据展示模块、消息模块、管理模块、异常处理模块、水质知识图谱模块等七个模块,并进行了功能的展示和细节介绍。