【摘 要】
:
作为数据挖掘领域的一大分支,数据流挖掘一直是一大研究热点,现有的一些成果也已经在理论研究和实际应用中做出了重要的贡献。数据流挖掘的关键特征是通过一次扫描从海量,连
论文部分内容阅读
作为数据挖掘领域的一大分支,数据流挖掘一直是一大研究热点,现有的一些成果也已经在理论研究和实际应用中做出了重要的贡献。数据流挖掘的关键特征是通过一次扫描从海量,连续,动态演化的数据流中实时提取有价值的知识。然而,绝大多数算法都建立在数据有完整标签的基础上,且对数据流的演化形式(如,概念漂移,概念演化,特征演化等)有较强的假设,这极大地限制了数据流挖掘在实际场景中应用的广度和深度。因此,建立可靠的自适应聚类算法,使之能够有效应用于标签缺失的场景,并且对多种演化形式能快速适应及学习,是当前数据流挖掘领域的一个重要任务。本文的主要工作包括对概念演化数据流进行自适应的无监督学习以及对复杂的数据流进行特征演化的学习,本文的工作内容和主要创新点主要为以下三个方面:第一,针对概念演化数据流中滑动窗口(或衰减速率)不合适导致聚类表现变差以及聚类结果不能正确反映当前数据分布的问题,本文首次提出聚类生命周期的概念,并基于此提出聚类生命周期学习(CLL)算法,为每一个类在数据流中出现的时间和消亡的时间进行有效的预测。该算法通过为每一个带权微簇自适应地学习一个遗忘函数来调整微簇权重的衰减速率,加速组成过时概念微簇的权重衰减并减缓正确反映当前数据分布的微簇的权重衰减,有效地提高了聚类的性能。第二,针对传统基于窗口的聚类演化检测方法存在检测不及时和演化检测错失的问题,本文在聚类生命周期自适应学习的基础上,提出一种基于最小生成树的动态聚类算法。该算法通过实时维护树(类)结构以及树(类)与树(类)之间的关系来在线监测聚类结构是否发生演化,提高了聚类演化检测的及时性和准确性。第三,针对数据流中特征演化场景下数据流挖掘算法需要解决复杂的优化问题以及没有考虑概念漂移的问题,本文提出一种基于微簇结构的特征演化学习算法框架:FEMC。其基本思想是从度量学习的角度出发,学习一个保留特征上的权重向量,将消失特征包含的信息压缩到保留特征上,使得原特征空间上的模型仍然有效。并结合懒惰学习模型,将FEMC分别应用到数据流分类和聚类任务上。FEMC为提高学习的可靠性和学习算法在数据流上的可适应性提供了有效的支撑。
其他文献
解梦,表面上看是对神秘梦象的诠释,实际上是借梦兆对命运进行叩问和探究,那些似真似幻的解梦语,凝定为相对固定的语言模式,折射出中国古人的生存状态和观念意识,其间潜藏着丰富复杂
目的:探讨环孢素A对大鼠创伤性脑损伤后NO的影响及其可能的作用机制。方法;取48只Wistar大鼠随机分为A、B、C3组,依次为假创伤组、脑创伤生理盐水治疗组及脑创伤环孢素A(CsA)治疗
重庆大学是刘湘为首的四川地方势力创办的高等学府,地方色彩浓厚。中央势力入川之后,整顿四川教育,重庆大学向教育部备案,被定为四川省立重庆大学,成为四川省立的最高学府。抗日战争全面爆发之后,四川对于抗战的重要意义逐渐凸显。随着战火的蔓延,东部高校纷纷内迁大后方,给大后方的教育发展带来契机,随着各方势力进入,重庆成为各方势力明争暗斗的舞台,而重庆大学也成为各方争夺的对象。“拒梁”风潮发生在四十年代初国内
纵观我国融资租赁的历史发展路径,历时四十载,今日的融资租赁与引进国门之初融资租赁,无论从行业规模还是模式多样性上都已不可同日而语。但在发展的同时,关于融资租赁的许多问题也不断暴露出来,现阶段我国融资租赁行业发展问题主要表现于融资租赁物取回权对于融资租赁之债担保的不足。在传统观念看来,融资租赁物表面上的所有权为融资租赁物出租人所拥有,该表面上的所有权确保出租人在承租人违约的时候能够从承租人手中取回融
高校实行扩招后,大学英语教学工作面临着一系列的新问题,如何探索解决问题的方法,实践分层次教学的各个环节,是教学改革着力研究的内容.
目的观察自拟益气复脉通络方对冠心病介入治疗后心绞痛的疗效及对VEGF、sICAM-1、MMPs-9及炎症因子表达的影响。方法选取本院106例冠心病介入治疗后心绞痛患者为研究对象,按
“未来两三年内,视频网站的融资几乎不可能实现,具有行业生存意义的将是营销实力。” 对于视频网站这样一桩以烧钱闻名的生意,加上所烧之钱大多来自海外风险投资,这次世界金融危机意味着什么,答案是不言而喻的。2008年11月,六间房网站员工从200多人减至60人,让人们部分感受了这个时尚行业所蕴含的危机。尽管六间房总裁出面澄清人员调整不是为了“过冬”,尽管之后各视频网站的总裁也纷纷表白自己的2008
急性腰扭伤是骨伤科常见病,多发病,若处理不当或治疗不及时,可使症状长期延续,变成慢性,据文献报道54%腰椎间盘突出症有腰扭伤史。故给予及时恰当的治疗,具有及其重要的意义
海马结构参与到包括学习记忆在内的多种高级脑功能中,它主要包括CA1、CA2、CA3以及齿状回(dentate gyrus,DG)区。其中DG区是海马结构中信息输入的关键位置,能够对新信息给予
针对X波段双线偏振雷达数据质量问题,使用北京市气象局和佛山市气象局分别部署的多部X波段双偏振雷达组建的雷达网所获得的2016年夏季(5-8月)间雷达观测资料,开展X波段双线偏振雷达数据质量控制方法研究。利用弱降水过程中性质均一、随时空变化缓慢的特征,使用较长时间观察结果沿径向或方位累积去分析地物、避雷针、旋转及俯仰关节等对偏振量的影响,并做避雷针和旋转关节质控检验和相应订正评估。此外,对强降水下X