【摘 要】
:
实际应用中数据经常出现的缺失值将直接影响到数据挖掘算法的准确性,因此如何处理缺失值已成为数据分析领域必须解决的重要问题。目前采用填充算法进行缺失值填充已经成为一
论文部分内容阅读
实际应用中数据经常出现的缺失值将直接影响到数据挖掘算法的准确性,因此如何处理缺失值已成为数据分析领域必须解决的重要问题。目前采用填充算法进行缺失值填充已经成为一个重要的研究方向。所谓缺失填充就是以完全数据集为依据,采用统计学或机器学习算法推断和计算缺失值的过程。最近邻填充算法(kNNI)由于容易实现、计算方便和填充效果好而被广泛应用于实际生产中。但是其近邻的选取具有偏好性和k的确定具有随机性。为了克服kNNI的不足,QENNI算法被提出。DDWQ算法是在QENNI算法的基础上将完全数据集对缺失值的整体影响和象限近邻的影响进行综合考虑而提出的新方法。DDWQ的核心思想是以缺失值为中心,采用壳体包围缺失值的方法,使得每个完全数据都能分布到唯一象限中,将各个象限最近邻的距离和该近邻所在象限的完全数据集密度进行混合加权。它不仅能有效地避免kNNI中近邻选取的偏好性,而且将完全数据整体对缺失值的影响进行综合考虑。在公开数据集上的测试表明算法DDWQ的填充效果要比QENNI好。时间序列类型的数据在现实中是普遍存在的。本文通过DFT变换对时间序列的相似性和周期性进行了研究,并采用DFT距离对时间序列进行基于密度的聚类(DBSCAN)分析。在此基础上提出了基于DDWQ的混合时间序列缺失值填充算法。该算法的核心是将与待填充序列同一类别的序列和其完整周期上的子序列作为DDWQ算法的输入来对时间序列的缺失值进行填充。在模拟数据集上的测试表明,该算法填充准确率有一定提高。
其他文献
在当前主流视频编码标准所采用的混合编码框架下,视频数据中的统计冗余能被大幅降低,但是视频数据中的视觉冗余却难以被消除。如何消除视频数据中的视觉冗余已成为视频编码领
软件测试的质量不仅依赖于测试用例的类型和数量,测试判据作为一种验证测试用例是否被正确执行的机制,对于测试用例的错误检测有效性也有重要的影响。图形用户界面(GUI)被广泛
近年来云计算技术的发展,对网络存储系统的容量、性能和可用性提出更高的要求。分布式文件系统作为网络存储系统的核心软件,对外提供文件的保存、获取、组织、共享以及保护工
我国近年来着手研究开发具有自主知识产权的GEO卫星移动通信系统,然而GEO卫星移动通信系统RLC层协议相关研究开展较少,因此本课题对RLC层协议进行研究与设计,主要内容包括:
电子断层(Electron Tbmograptly,ET)三维重构技术能够在纳米尺度下重构出不具有全同性的细胞或大分子的三维结构,已经成为一种公认的研究复杂生物大分子结构强有力的手段。然
RFID技术作为物联网环境下的典型前端信息载体,在生产制造、物流管理、身份标识等领域均有着广阔的应用前景。但是,受到复杂应用环境的影响,RFID大规模应用部署仍然具有挑战
网络通信技术的突飞猛进,使得传统媒体方式转向更加便捷的数字化传播和交流,也导致了数字媒体的版权纠纷难题。数字水印技术是实现数字产品版权保护的有效方法。典型的多媒体数
在无线传感器网络乃至无线网络邻域中,拓扑控制都是一项十分重要节能技术。对无线传感器网络中网络性能有着重要影响。一直以来都是国内外研究人员关注点之一。目前,以能量高
随着多核高性能微处理器的运算能力的飞速进步,芯片对于数据交互带宽的需求也日益增长,因此微处理器的高速有线互连电路的设计在近些年逐渐成为了高性能微处理器设计的关键技
视频分割,是一种根据灰度、颜色、边缘以及运动等一切可以利用的信息把视频序列分割成有意义的运动主体的技术。在这种意义下的视频分割,是传统的底层视觉任务--图像分割的自