数据清洗相关论文
阐述金融大数据风险预警系统的需求分析,系统的设计和实现,包括系统架构设计、数据处理层设计数据清洗和存储、搭建数据平台Hadoop、......
阐述Harmony OS框架、嵌入式手环设备,采用NoSQL及Python爬虫技术,深度挖掘医疗数据,借用云平台对数据进行清洗、分析,为复杂割裂的医......
随着人工智能时代的到来,多标签分类由于更贴合现实世界的建模需求而成为机器学习领域的核心研究问题。而由于数据获取时的各方面......
阐述大数据的特征及支持技术,大数据技术在医疗领域中的运用,包括电子病历的实时共享、医学影像、公共卫生和临床诊断中的应用,探讨数......
无线射频识别(RFID)技术是一种自动识别方法,它依赖于称为RFID标签的无线电转发器快速存储和检索数据。由于RFID标签与读写器通信时无......
针对风电数据在采集与传输过程中会产生大量缺失值和异常值,采用DBSCAN算法和最优组内差分法(OIV)组合筛删异常值,随机森林(RF)算法填补......
针对二手车资产价值的评估问题进行了相关研究,利用机器学习方法对二手车价格进行预测。通过Python的Pandas库中read.csv()命令对二手......
本文对能源数据清洗的作用以及几种方法进行探究,使能源数据质量支持深入分析和挖掘。使得能源管理系统的制造商以及能源使用方,对能......
随着城市化的迅速发展,城市地下基础设施的健康监测被视为现代化智慧城市建设中的重要一环。目前,国内外对城市地下基础设施运行综......
通过对前程无忧51job网站结构进行分析,使用Python程序语言及Requests、Re、Pandas等第三方模块,开发网络爬虫程序,实现了自动化、个......
在城市现代化发展进程中,公共交通运行效率不足的问题拖慢了城市健康发展的脚步。本文立足于“公交服务于人民”的城市发展理念,进一......
通过供水管网监测数据的分析研究,提出了基于支持向量机的供水管网数据清洗方法,并以南方某市实际供水管网为案例进行验证,结果表明基......
近年来,短文本分类技术获得了广泛的研究。但在实际应用中,随着文本数据的积累,人们经常会遇到分类体系问题及其引起的数据分类标注问......
钓鱼运动是西方人最喜爱的运动之一,而中国是世界钓鱼用品的主要生产国和贸易国。本文借助思睿智训跨境电商数据化运营与决策系统......
随着电力行业的蓬勃发展,智慧燃气电厂信息化建设成为其重要的发展方向之一。收集并处理燃气电厂运行过程中的所有有效数据,是构建智......
近年来,我国医药行业越来越多地暴露出药企营销模式单一、药品流通低效、监管滞后等问题。药企为了持续稳定发展,亟需数字化转型。......
本文基于Python技术,设计并实现了豆瓣网站《长津湖》电影的数据爬取、清洗和可视化分析系统。根据该电影影评数据,使用Pandas完成数......
随着“碳达峰”和“碳中和”两个目标的提出,以集中式开发为代表的大型光伏电站的发展迎来了高峰期。而光伏电站运行过程中,光伏出......
以提升无线通信系统安全态势感知预测精度为目标,基于机器学习与大数据分析研究无线通信系统安全态势感知预测。采集无线通信系统内......
以南水北调中线工程为研究对象,针对调度运行中出现监测站点流量倒挂的数据异常现象,基于水量动态平衡原理及区间流量最长序列法,构建......
在实际应用中,RFID出入管控设备常常会因为环境干扰而读取到环境中的无关标签,或者是由于受到场地的限制,确实有无关标签存在于RFID出......
无线传感器网络(Wireless Sensor networks,WSN)是由数量众多的微型传感节点形成的具有信息采集、处理和传输能力的自组织综合系统。......
本文基于Python语言技术,围绕Python语言的数据处理过程,通过与scrapy爬虫框架整合,形成了一套新的Python语言数据分析处理技术体系,再......
为解决民航不安全事件信息中分类不准确的问题,提出一种基于机器学习的数据清洗方案。首先,设计了一种基于one class svm的异常值筛......
数据质量问题是数据管理中最重要的问题之一,在大数据时代的今天,数据的影响力越来越大,政府和企业通过分析数据并根据结果指导决......
针对海量时序数据集提出了一种相似重复数据检测算法。该算法以传统近邻排序算法SNM为基础,增加了对窗口大小的动态调整策略,新增了......
现实世界中收集的数据集通常是含有缺失的,为了在不完备数据集上构建有效的机器学习模型,需要对数据集进行清洗。为了确保较好的清洗......
本文提出基于时间差正态分布特征分析的数据清洗方法。首先,计算时间差数据的均值与标准方差;其次,采用正态分布3σ原则剔除异常数......
汽轮机运行过程会产生多样且大量数据。为适应大数据驱动及仿真建模对高质量数据的要求,高效的数据清洗十分必要。利用长短记忆层对......
结合风电机组异常数据的分布特征,采用参数模型与非参数模型结合的算法对异常数据进行识别。首先,在水平功率方向将风电机组运行数据......
随着大数据时代的到来,数据成为企业的核心资产,分析和挖掘数据的潜在价值对企业业务发展和关键决策具有重要作用。数据集成是数据......
随着能源利用技术的发展,为提升能源供应环节效率、降低用户用能行为的不确定性,综合能源系统受到越来越多的关注。此外,传感器及......
近年来,为切实治理水环境安全问题和促进水环境质量的不断改善,全国各流域生态环境监测站点扎实开展水质加密监测,从而保障环保部......
为提高高校实验教学效果与学生实验成绩,提出基于虚拟仿真技术的高校实验在线教学系统。分析高校在线虚拟实验教学类型,结合分析结果......
随着中国经济由高速度增长阶段向高质量发展阶段转变,消费正在逐步代替出口和投资成为拉动经济增长的新的动力。在这样一个新的发......
温室气体排放越发引起世界各国对能源利用的关注,“碳达峰,碳中和”作为重点工作被列入十四五规划指导能源发展。降低电力网损耗是......
大深度载人潜水器是进入深海进行科学研究和调查作业不可或缺的重要运载装备,是海洋学研究领域的重要基石。在复杂多变的海洋环境......
地名地址数据是“天地图”的重要组成部分,其精度要求高、覆盖范围大、内容涵盖广。为确保地名地址数据的权威性、准确性和及时性,必......
数据清洗是数据预处理的重要内容,现有的清洗技术存在野值漏选、受野值影响等问题。提出了一种基于回归模型的动态精细识别算法,在剔......
随着“3S”技术的飞速发展,数据逐渐成为国家基础战略建设的主要组成部分。空间大数据在各个领域上的应用也越来越广泛、越来越深......
随着互联网的发展,数据呈现爆发式的增长。虽然数据规模很大,但是数据质量却无法得到保障,存在许多脏乱的数据,需要进行数据处理。......
近年来随着国家加大环保治理力度,颁布了新的工业污染物排放标准,对于原油炼化企业催化裂化装置的达标排放提出了更高的要求。大数......
学位
LNG接收站的红外热成像监测具有关键设施体积大、场地情况复杂等特点,对红外热成像的数据清洗、异常识别与定位等提出了更高的要求......
随着人脸数据集规模的持续增长,科研人员们设计出了各种更快更强的人脸识别网络进行人脸识别,但是对于现有数据集中存在的噪声的来......
数据已经成为了核心的战略资源之一,无论是社会进步还是企业成功,越来越依赖于对数据的分析。数据一致性和数据时效性作为数据质量......