迁移和协同学习新方法研究

来源 :江南大学 | 被引量 : 0次 | 上传用户:smlz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当下很多机器学习任务中,数据存在形态正经历着由单源数据向多源数据进行转变的过程。数据形态的变化使得传统的机器学习模型不再适用,进而研究适用于多源数据的新模型显得尤为迫切。本文把这种针对多源数据新模型的研究统称为多源数据融合。在已有研究文献中,两种最常见的多源数据形态分别是多分布多源数据和多特征集多源数据,而针对这两种数据形态最常用的两种多源数据融合策略分别是迁移学习和协同学习。本文针对不同的多源数据形态提出了三个新的多源数据融合模型,较之于单源数据模型和已有的多源数据模型,所提算法在理论和性能表现上都有显著提升。如下为本文针对多源数据融合问题的三个主要工作:1)第一个工作是针对多特征集多源数据的聚类新方法研究。已有的此类算法使用的协同聚类策略基本都是基于原型聚类,谱聚类等算法的改进,比较适用于样本间距离可度量的数据。而对于共现数据来说,数据中的值代表的是样本和特征的共现频数,从而每个源的数据可以看作一个已知的联合概率分布。基于此假设,本文提出了一种针对多特征集共现数据的多源数据信息理论协同聚类算法,所提算法将整个问题在信息论的框架下求解。从而使得聚类过程利用的并非样本之间的距离信息,而是样本和特征的概率分布信息。实验结果证明了所提算法对于多特征集多源共现数据的有效性。2)第二个工作是针对多分布多源数据的表示学习新方法研究。此类算法的核心思想是通过迁移策略对多源数据的特征进行分布匹配,其中最核心的内容就是特征变化方法的选择。已有算法选择的基本都是基于核函数的特征变化方法,它们的缺陷是一方面对于不同的数据集核函数的选择是个难题,另一方面基于核函数的特征变化往往缺乏可解释性。为了解决上述问题,本文引入了模糊系统,提出了一个基于模糊系统进行特征变化的多源数据迁移表示学习算法。所提算法将传统用于回归任务的模糊系统当做了一种特征学习方法,一方面令特征变化过程的可解释性更强,另一方面避免了核函数的选择。而且所提算法能够根据数据集复杂程度可缩放地选择不同规模的模糊系统进行特征变化。大量的实验验证了所提算法在可解释性和迁移性能上较之于已有方法的优势。3)第三个工作是针对以往研究中极少关注的一种新的多源数据形态。多特征集多源数据最重要的特点就是多个源的数据是以配对形式存在的,而多分布多源数据并没有上述要求,只是每个源的数据分布不同。在实际应用中存在着一种融合了上述两种特点的多源数据形态,即多分布多源数据之间也存在着配对样本。本文针对这种数据形态提出了一种新的多源数据融合模型,所提算法同时利用了迁移学习和协同学习策略,充分利用了此种多源数据中的有效信息。在这种包含配对样本的多分布多源数据上,大量的文本和图像实验验证了所提算法较之于已有算法表现出了显著优势。
其他文献
"七月半"是汉民族居民特有的节日之一,安庆地区的活动精彩纷呈,在安徽省具有一定的代表性。在当地,该节日包括活动的准备和祭祀两个阶段,前者主要有装糊"衣包"和做"米粑"等活
随着能源问题的日益严重,可再生能源逐渐被人们重视。生物质是一种可再生能源。其具有分布广泛、成本较低、碳排放中立的优点。目前有很多种生物质利用的方式,生物质热裂解和
广义系统,又称奇异系统,与传统系统相比可以更好地描述物理系统,因而一直受到学者广泛的研究和关注。而矩形广义系统,作为一类更广泛的广义系统,因状态变量个数与状态方程个
本研究对以自我决定理论为基础编制的学业动机量表进行翻译和修订,并测试中文版信效度。通过对305名大学生进行测试,对量表的因素结构、信度、和效度进行检验。验证性因子分
移动机器人定位技术是实现机器人自主导航的一种重要技术。由于计算机视觉技术与图像处理技术的不断进步,对于机器人定位系统,大量运用了以视觉传感器为基础的定位技术。在视
近年来,随着互联网的普及,人们获取信息的途径也变得愈加丰富,得知谣言的速度也变得更加快捷。人们参与话题讨论的积极性越高,使得谣言传播所造成的影响也越来越深远。这意味
差分进化算法(Differential Evolution,DE)是一种群体智能优化算法,近年来被广泛应用于解决生产生活中的优化问题。DE算法具有参数少、优化能力较强等优点,但在处理一些复杂
为了提高采用再生块体混凝土的竖向构件的现场施工效率,对再生块体混凝土进行工厂化预制不失为一种有效对策。据此,本文提出了内置型钢的方钢管预制再生块体混凝土柱,并对其
随着我国工农业生产的发展和城镇规模的扩大及人民生活水平的不断提高,对能源的需求和消耗量不断加大,规模化、集约化的养殖场和污水处理厂不断增多,畜禽粪便和污泥排放量也
深度学习已经在语音识别、物体检测、自然语言处理、自动驾驶等多个领域中展现出了优异的性能。但高准确率的背后还存在计算代价大、通用智能水平弱等许多局限性。基于脉冲神