论文部分内容阅读
随着大数据技术的迅速发展,以机器学习理论为基础,以感知数据为支撑的多源异构数据融合成为了当前热门的研究领域,并被广泛应用于智慧医疗、智慧家庭和智慧交通等各类智慧城市系统中。随着感知数据的数量逐渐增多,数据在数据类型、数据关系及数据质量上的差异性日益增大,且包含大量未标注数据、数据稀疏区域及领域知识。同时,由数据隐私、数据安全及传输限制等因素所导致的分布式多源异构数据融合难题不容忽视。本文针对多源异构数据融合中单模型数据融合、基于数据特征的数据融合、跨领域知识融合及分布式环境下的数据融合四个关键问题展开深入的研究与探索,并基于城市感知数据对方法进行验证,取得如下创新成果:1.针对多源异构数据融合问题,提出了一种基于随机森林的多源异构数据融合方法MCS-RF。该方法属于单模型算法,通过融合离线半监督随机森林模型和增量半监督随机森林模型,可以解决多源异构数据融合中由于数据异构、稀疏数据和未标注数据等所造成的融合难题。本文以北京市细粒度PM2.5实时推断为例验证方法的有效性。实验结果表明,基于随机森林的MCS-RF算法可以有效实现多源异构数据融合,从而提升推断准确率。2.针对多源异构数据融合问题,提出了一种基于模型集成的多源异构数据融合方法。与MCS-RF不同,该方法通过构建多个相互独立的子模型完成数据训练。该方法针对城市感知数据中普遍存在的时序属性、空间拓扑属性和实时数据属性等数据特征构建子模型,并通过神经网络将子模型进行集成,实现任务目标。本文以北京市细粒度空气质量指标实时推断为例验证方法的有效性。实验结果表明,基于模型集成的融合方法可以实现多源异构数据特征的深度挖掘,从而有效提升评估准确率。3.针对跨领域知识融合问题,提出了一种基于机器学习的跨领域知识融合方法。该方法对领域知识模型进行近似处理,并利用数据进行训练求解近似模型参数,从而解决领域知识模型在城市感知数据中的部署难题。本文以空气质量预测问题为例验证方法的有效性。实验结果表明,基于机器学习的跨领域知识融合方法通过对领域知识的深度挖掘,可以有效提升预测准确率。4.针对雾计算环境下的数据融合问题,提出了一种包括局部异构模型集成和全局同构模型协同的多源异构数据融合方法,并使用基于数据数量和数据质量的参数平均方法对模型进行迭代优化。本文以雾计算环境下的环境监测问题为例验证方法的有效性。实验将城市感知数据模拟分割成雾计算环境下的数据分布,分别使用独立同分布数据及非独立同分布数据对方法进行了验证。实验结果表明,该方法通过本地模型集成及云端模型协同可以有效实现非数据共享下的模型协同训练,从而解决分布式节点数据稀疏、模型过拟合、数据异构及模型异构等融合难题。