论文部分内容阅读
“万物互联”形成物联网,因此物联网的核心是“物”,即实体。一个实体可能有多个特征组成,如房间的温度与湿度等。一种类型的传感器用于感应实体的一类特征,因此实体与传感器是一对多的关系。大量的传感器实时感应物联网各类实体的状态信息,形成海量异构动态的数据信息。人们关注实体本身的状态,而不关心传感器输出的具体数据,因此如何处理海量的传感器数据信息,有效挖掘其潜在的信息与知识,成为当下物联网技术研究的重要问题。相似性分析技术在互联网中应用广泛,在物联网中应用更加广泛。相似性分析技术不仅能够用于传统的相似性搜索服务和推荐服务,还可以应用到工业物联网、智能农业以及智能城市等领域。而复杂的物联网传感器数据,使得传统的相似性分析技术不再满足用户的需求。面向物联网的实体相似性分析技术,成为物联网数据挖掘领域的一个重要问题。物联网实体相似性分析技术研究刚刚起步,研究成果有限,而基于传感器定量数据对物联网实体做相似性分析的研究成果更少。现有研究在传感器数据拟合方面,误差相对较大,相似度计算准确度不高。在特征值相差不大的情况下,单特征相似性分析技术的相似度计算准确度不高。而在复杂的物联网环境中,用户很少提出单特征相似性分析需求,因此单特征相似性分析技术不能满足用户的需求。另外,相似性分析技术基于距离计算相似度,冗余与不相关的特征数据不仅增加了计算量,而且影响计算的准确度。本文针对现有研究中存在的问题与挑战,分别展开了实体状态数据分段相似性计算方法、面向物联网的多特征实体相似性分析方法、物联网中带特征选择的实体相似性计算方法三个方面的研究。(1)针对传感器数据拟合误差较大相似度计算准确性不高的问题,本文提出实体状态数据分段相似性计算方法。首先,阐述了传感器数据分段点的计算方法,依据数据分段对数据进行线性拟合,可以解决最小二乘多项式算法先验多项式获得困难和简单线性拟合算法传感器数据拟合误差较大的问题。然后,根据传感器数据拟合函数给出相似性模型构建方法和相似度计算方法。最后,将该方法用于相似性搜索,与现有算法做对比,提高了相似性查询的准确度和速度,与传感器原始数据做比较,数据的存储开销降低了2个数量级。(2)由于单特征相似性分析技术不能满足物联网用户的实际需求,给物联网实体相似性分析带来了挑战,本文提出面向物联网的多特征实体相似性分析方法。首先,将一种新的无监督非球面聚类算法用于传感器数据聚类,实现不同特征和特征函数拐点的分组。然后,根据特征对实体的区分度不同,给出多特征加权的计算方法。最后,结合传感器数据聚类算法和特征加权方法,详细阐述多特征相似性分析技术。并将该方法用于相似性搜索,与单特征相似性搜索方法做对比,提高了相似性查询的准确度和速度,与传感器的原始数据做比较降低了存储开销。(3)针对复杂冗余数据,增大实体相似性分析技术的计算量,降低计算准确度的问题,本文提出物联网中带特征数据选择的实体相似性计算方法。首先,改进典型的特征选择算法(Relief算法)用于传感器特征数据选择。然后,介绍了实体与特征的对应关系矩阵,实现实体公共特征的筛选。定义实体、相似性计算模型与实体特征的三元关系存储表,用于特征模型的自动生成。最后,详细阐述面向物联网的特征选择算法,并将该算法用于单特征与多特征相似性分析技术。在相似性搜索仿真验证中,平均查询准确度至少提高了 10%,提高了查询速度,降低了存储开销。