一种实时的半结构化数据流频繁模式挖掘算法

来源 :北京工业大学 | 被引量 : 2次 | 上传用户:li9599
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,半结构化数据比如图形数据、树形数据、序列数据等广泛地应用在语义网络、社会关联分析、大分子信息挖掘等领域。如何挖掘其中的关联信息是半结构化数据挖掘的关键。但是,半结构化数据结构复杂、存储困难等特点使得使用传统算法对其进行挖掘的难度较大。与此同时,越来越多的数据流出现在人们的视野中,例如来自社交网络、金融管理、信息监控等实时系统的数据流在在日常生活中起到越来越重要的作用。这些数据流不仅具有数据量巨大、数据流流速快等特点,而且人们往往更关注的是当前时刻的数据流,实时性要求比较高。如何从这些海量且复杂的流数据中,实时且高效地获得人们关注的数据,是大数据技术发展需要解决的问题。随着大数据技术的发展,应用需求越来越复杂,半结构化数据流处理需求不断增长。但是,现有的半结构化数据挖掘方法无法满足流数据处理的要求。针对这个问题,本文改造了现有的半结构化数据挖掘方法,提出一种基于时间衰减模型和批量更新模式的挖掘算法,能够进行半结构化数据流的频繁模式挖掘。该算法通过时间衰减模型增加新数据的权重、降低历史数据的权重来降低挖掘过程中过期数据的影响,获得实时的挖掘结果;通过批量更新模式对已挖掘数据的有用信息进行保留来避免了传统数据流挖掘算法中对数据库进行反复扫描、多遍处理的问题,有效防止资源的浪费。通过对比实验表明,该算法实现了半结构化数据流挖掘功能,能够高效地处理复杂且高速到达的海量半结构化数据流,能够降低历史数据的影响实时地获得数据流中频繁模式数据,可以满足当下半结构化数据流挖掘的需求。
其他文献
目的机械通气及其相关的脱机一直都是重症医学科重要的研究领域。但是关于系统指导临床脱机模型或者体系的研究还是空白。本研究的目的即是将能有效预测脱机结果的单一参数联合起来,初步建立起一个能够用于指导临床有创机械通气脱机的模型。研究是通过能够反应血流动力学的经肺热稀释法和脉搏波轮廓分析参数、液体平衡相关的参数来初步建立起能预测脱机失败的模型以期能够指导临床脱机。方法采用回顾性队列研究,查阅2017年1月
随着信息技术的发展与应用的逐步深入,各大高校已经在许多方面引入了信息管理系统来提升自身的管理和运营效率。通过构建合理的高校教学评估信息系统,能够实现对日常教学质量
电信运营商的“电信增值业务”多数都是由数据业务来支撑的,它同时给电信运营商带来一大笔可观收入。最近几年,虽然市场竞争激烈,但是数据业务随着行业数字化技术的迅速发展
Linux内核代码量极大,逻辑关系复杂,为了方便其他开发者更好的编写诸如驱动程序、文件系统等内核模块内容,Linux内核团队建立了庞大且高效的Linux内核API体系,以方便开发者使
在二十一世纪后,随着我国市场经济的迅速发展,律师事务所规模日益扩大,管理日益规范,类型也随之增多。根据司法部统计,截至2016年底,全国律师事务所超过2.5万所,执业律师人数
肝细胞性肝癌(Hepatocellular carcinoma,HCC)是我国最常见的恶性肿瘤之一,其死亡率位列癌症相关肿瘤死亡率第三位。HCC具有起病隐匿、恶性程度高、进展迅速、易转移、病死率
公民政治参与是现代民主政治最主要的特征之一,是公民通过各种合法方式参与政治生活,影响政治体系构成和政策过程的行为。私营企业主是社会结构中的新兴阶层,在社会转型的过
[目的]1.通过系统评价的方法对Allo-HSCT后是否使用TKI药物进行维持治疗及不同的治疗起始时间点对Ph+ALL疗效差异进行比较,为Ph+ALL患者在行造血干细胞移植术后的相关治疗提
随着移动互联网时代的到来,网络社交像空气一样融入人们的生活,改变着或被改变着我们自己。作为记者这个特殊群体,他们的网络社交是一种什么样的定位?本文以记者微信群“东八
目的比较早期食管癌及癌前病变患者行内镜下黏膜剥离术(endoscopic submucosal dissection,ESD)与外科手术的治疗效果,探讨ESD术后是否需要二次行食管癌根治术的影响因素。方