【摘 要】
:
传统的数据挖掘方法假设训练数据和测试数据服从相同的数据分布。然而,在许多情况下,这种同分布假设并不能得到满足。当分布发生变化时,传统的数据挖掘方法必须从头开始,需要
论文部分内容阅读
传统的数据挖掘方法假设训练数据和测试数据服从相同的数据分布。然而,在许多情况下,这种同分布假设并不能得到满足。当分布发生变化时,传统的数据挖掘方法必须从头开始,需要用户重新收集大量的训练数据。在许多现实世界的应用中,重新收集所需的训练数据和再次训练模型的代价是昂贵的,同时丢弃所有原始领域中的训练数据完全不用也是一种资源的浪费。在这种情况下,迁移学习就变得非常重要了,因为迁移学习可以从现有的数据中迁移知识,来帮助将来的学习。迁移学习是指一个系统认识和运用先前任务中所学到的知识或技能来学习新任务的能力。迁移学习的研究出于这样一个指导信息:人类可以利用先前所学到的知识来更好更快地解决新的问题。因此,迁移学习不会像传统的数据挖掘方法那样作同分布的假设。本文中主要针对迁移学习开展了以下工作的研究:(1)概述了迁移学习的背景知识、基本概念、研究现状以及应用领域,将迁移学习的现有方法总结为四种类型,并详细地分析了各种方法的具体实现以及当前的应用;(2)为了使迁移学习能够完全没有标记数据的目标领域,本文提出了基于Logistic回归的直推式迁移学习方法(TTLR),使得分类器在训练样本和测试样本分布不同的情况下能够适应于目标领域。实验表明,与传统的监督式分类算法相比,该方法是有效的,并且能够取得更好的分类效果。(3)为了能同时处理多个不同的分布,本文给出了基于Logistic回归的多领域直推式迁移学习方法(MTTLR),来解决同一时间多领域的知识迁移问题。实验表明,该方法是有效的,且相较于传统的监督式分类学习算法和以往的一些直推式迁移学习方法,该方法显示出了更高的准确性。
其他文献
随着各领域信息化建设的不断发展,许多政府部门或企业都开发和使用了一些独立的信息系统。在数据量和业务需求不断增加的同时,旧的信息系统会面临升级、替换的问题,而旧系统所积
随着计算机软硬件技术的不断进步,嵌入式系统得到快速发展,并广泛应用于工业控制、信息家电、通信设备、智能仪器仪表等领域。同时,系统的复杂性不断增加,导致嵌入式系统软件的规
系统、软件及程序在运行过程中,都有可能由于缓冲区溢出的问题导致程序行为异常。恶意用户利用服务程序中的缓冲区溢出漏洞,攻击目标信息系统,破坏、修改、窃取信息系统中的敏感
随着Internet的快速发展,网络安全问题日益突出,防火墙技术成为保障网络信息传输安全的有效手段。但传统的防火墙系统难以高效地过滤内容信息,易成为整个网络的性能瓶颈。因
从采用IRC协议的“egg drop bot”到高度模块化的AgoBot,僵尸程序从最初的网络聊天室辅助软件,逐渐成为威胁网络安全的主流恶意软件之一。在僵尸网络的攻防博弈中,IRC协议被H
面对传统的数据挖掘研究,以可视化的形式对数据挖掘的研究有其独特的优势。利用可视化技术可以使用户更好地了解数据挖掘的全部过程,包括从数据预处理的可视化展示,到数据挖掘过
路由协议是无线传感器网络研究的重点之一,其主要的设计目标是降低节点能量消耗,延长网络的生命周期。本论文首先介绍了无线传感器网络的体系结构、关键技术及应用前景,然后介绍
关键短语和文摘抽取是智能信息处理的重要技术,主要应用于搜索引擎、话题检测与跟踪、文本聚类和文本分类等文档信息处理。多文档关键短语和文摘用短语和句子的形式反映多文
P2P网络是一种分布式网络,它不依赖于某个中心服务器来提供服务,任意两个计算机节点都可以是服务的提供者也可以是服务的请求者。相比C/S模式,P2P网络具有容错性好,鲁棒性强,
当今信息技术不断发展,各种形式的信息大量涌现,其中文本形式的数据量特别庞大。人们希望快速、准确而全面的获取信息的同时,必须面临在巨大的信息资源中找寻有价值信息的难题。