重复记录清洗技术及其在信息管理系统中的应用

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:hengkuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
相似重复记录指数据集中多条语义相同,但因格式、拼写等异常导致系统不能正确识别的脏数据。检测相似重复记录就是检测并最大限度的减少这些语义相同但表现形式不同的脏数据。一般地,脏数据集中相似重复的脏数据所占的比重较大。因此,检测和消除相似重复记录是数据清洗的重点和难点之一,也是保证数据质量的关键因素,正日益受到信息系统研究者的关注以及企业的高度重视。   本课题组已经开发并实际运行的某省农村饮水工程信息管理系统,是一个大型复杂的WEB信息系统。在运行中发现系统存在大量的脏数据。为了解决脏数据问题,进一步提高系统的实用性,我们以清理系统脏数据、监测与清洗重复记录为核心目标,在深入学习中文分词技术、数据清洗理论、Web开发技术、数据库理论、网络通信理论和软件建模理论的基础上,基于微软VisualStudio2008开发平台对该系统进行了深入的维护性研究开发。   农村饮水工程信息管理系统中数据源涉及到全省上万个村庄,采集的底层数据存在严重的“脏、杂、乱”现象,从而降低了调查、统计、分析的精确性和可信度。在系统维护性研究开发过程中,作者提出了一种基于中文分词的地址信息检测方法,实现了数据中不完整及错误的地址信息检测纠正功能;提出了一种基于语义树的中文相似重复记录清洗方法,用以消除原数据中的重复记录集;运用控件编程实现了数据统计分析功能,提升了用户体验。   经过对原系统中新增模块的分析、设计、编码、测试及集成后,已消除了原系统中“脏、杂、乱”数据的缺陷,提高了数据质量。目前,该系统已重新部署于某省水利厅供水处数据中心,系统运行平稳,数据处理准确、快速,并得到了用户好评。   本文详细阐述了系统研究开发中采用的关键技术和基本理论,以及系统分析、设计、实现、测试、部署及运行过程。
其他文献
随着物联网的飞速发展,无线传感器网络(Wireless Sensor Networks,WSN)技术已经走进了人们的生活,无线技术也得到了快速的发展,并且逐渐改变着人们的生活方式。WSN技术是在嵌
目前国内软件行业中,大多数为中小型软件企业的实际情况,并且现今软件维护逐渐成为困扰软件企业的主要因素,有越来越多的现有软件因不能满足企业未来需求而成为遗产系统,本文针对
随着我国经济的快速发展和“一户一表”工程政策的全面实施,城镇居民对水、气、电资源的需求量越来越大,同时居民对住宅环境和物业管理水平也提出了更高的要求。目前在家用表的
地理信息系统在最近的30多年内有着高速的发展,它被广泛应用于环境评估、城市规划、邮电通讯、电力水利、交通运输、商业金融等众多领域。伴随着地理信息系统的广泛应用,人们
在CT扫描中,射线对病人有一定危害,低剂量成像是CT技术的一个重要研究内容。低剂量可以通过稀疏视角下的投影采集来实现,然而用解析法对稀疏投影的重建会引入严重的伪影。基
无线传感器网络作为一个新兴的研究领域迅速地发展起来,它在军事、环境、医疗卫生、家居、太空探测、救灾等方面都有潜在的应用价值。而无线传感器网络的安全性关系着国家和社
传统粒子滤波存在粒子退化以及粒子多样性减弱问题,这在一定程度上制约了粒子滤波的发展。粒子滤波的应用环境往往比较复杂,这也对粒子滤波的估计精度和鲁棒性提出了更高的要求
随着电力系统的发展以及通信规约的不断完善,变电站综合自动化设备逐渐趋于数字化、智能化、模型和通信协议统一化。为了适应智能电子设备(IED)在变电站系统中的发展需求,解决传统的智能电子设备在互操作性、正确动作率、通信接口及通信协议兼容等方面不可克服的缺点,研究高性能嵌入式IED在电力系统中的应用具有重要意义。论文基于IEC61850规约,对嵌入式Lillux系统在电力远程监控器中的应用进行研究。开发
汽车电子领域已经呈现网络化、智能化的趋势和需求。为管理日益复杂的汽车电子/电器系统并且推动一种多厂商协作的开发方法,汽车制造商和供应商联合推出一个开放的汽车电子体
互联网技术高速发展给人们的生产和生活带来了极大的便利,人们在充分享受网络带来的方便同时也不能忽略网络安全问题。如今,单纯依靠传统的网络安全技术已经很难满足现有网络