大数据时效性关键技术的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:ru438185839
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,海量数据在企业以及人们的日常生活中都有广泛的应用。数据质量对数据的应用效果起着至关重要的作用,其中数据时效性问题是数据质量的主要影响因素之一,由于在实际应用中,时间戳往往不完全甚至不存在,当前数据时效性问题的研究主要包括利用时序关系和时效约束及参照数据的方法推导实体时效性最高的属性值;结合时效规则和条件函数依赖协同提高数据时效性和一致性;结合时效规则和统计技术提高数据时效性。本文根据大数据特点:规模性,高速性,多样性,提出了大数据时效性问题的一些关键技术。本文的研究内容主要包括以下几个方面:根据大数据特点规模性,通过分布式处理框架Map Reduce处理海量数据,将海量数据时效性问题归约到k-Partition问题(NP-完全问题)。然后扩展2-Partition问题的近似算法,提出基于MapReduce的并行近似算法,优化了reduce端负载平衡效果,算法近似比接近于1。通过实验验证了负载平衡的MapReduce过程执行效率与准确性。根据大数据特点高速性,提出动态数据时效性模型,首先对原数据集进行预处理,根据时效规则对描述同一实体的记录进行按照时效性排序。然后,动态实时处理更新数据。同时我们从以下几个方面提高算法执行效率:建立实体查询B树,从而提高查找更新数据相应实体的时间;引入实体存储静态链表结构以减少更新数据集的时间;根据时效规则建立属性执行顺序的拓扑图和属性值与元组号之前的倒排索引,优化处理时效规则的过程。根据大数据特点多样性,将数据质量的时效性与一致性、精确性、时效性、完整性及同一性结合起来考虑,利用时效规则和条件函数依赖、匹配规则及主数据结合起来修复多源异构数据集合,提高数据可用性。同时通过时效关系填充与缺省值属性值时效性最接近的属性值提高数据完整性,实验表明该算法完善数据完整性准确率较高。
其他文献
计算机技术的发展使得医疗模式不再复杂,慢慢走向分子医疗和信息化医疗阶段:首先现代医疗模式利用分子生物技术、DNA测序技术对人体进行DNA测序,接下来将得到的结果与人类标
现实世界中的许多复杂系统,如互联网、物联网、食物链网、神经网络以及社会网络等,都可以描述成由节点集通过边连接构成的复杂网络。社区发现作为复杂网络的一项重要研究内容吸
网络给我们的生活、工作和学习等方面带来了巨大的便利,同时网络也存在各种各样的风险,它是一把双刃剑。随着互联网的发展,它的开放性、共享性和互联程度越来越大,网络的重要
随着物联网时代的到来,人们对网络服务质量的要求会越来越高,不仅仅是对网络传输速度的要求高,同时对于网络的传输性能也提出了更高的要求。影响网络传输性能的重要因素之一
RF-SIM(RFID-Subscriber Identification Module)卡是基于无线射频技术,可实现近距离无线通信的手机智能卡,可用于移动设备、消费类电子产品、PC和智能控件工具等设备。中国
网络安全问题的凸显,使个人防火墙成为保护主机安全的主要手段,目前国内外学者都对智能化的个人防火墙进行了不同层次的研究,信息筛选技术作为最成熟的防火墙技术在防火墙的
随着web2.0时代的到来和社交媒体的广泛兴起,短文本出现在互联网的各个角落。信息检索,广告关键字,网页标题,锚文本,在线问题,微博以及评论等信息都属于短文本。短文本更新速
本课题来源于山东丝绸纺织职业学院在引进知识管理方法、并建设相应的信息化系统过程中的实践探索。知识管理(KM, Knowledge Management)是网络新经济时代的新兴管理思潮与方法,管理学者彼得·德鲁克早在一九六五年即预言:“知识将取代土地、劳动、资本与机器设备,成为最重要的生产因素”,“21世纪的组织,最有价值的资产是组织内的知识工作者和他们的生产力”。在信息时代里,知识已成为最主要的财
人工神经网络在一定程度上受到生物学的启发,是自然界生物神经网络的一种近似和模拟。其主要从两个方面进行模拟:一种从结构和实现机制方面进行模拟,即人工神经网络结构模拟生物
现在每天都有大量数据需要提取和分析,数据挖掘技术在许多实际应用中获得巨大成功,分类模型已经在许多应用场合得到广泛应用,如原油泄漏检测、信用卡检测、医疗检测等等。由