开放环境下的度量学习研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:lancer523
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
利用对象之间的相似性关系,度量学习为样本学到有效的特征表示,使得在该表示空间中,样本之间的距离度量能够精确反映样本之间的相似与不相似关系。有效的距离度量与表示空间极大地辅助了后续的多样化任务。在度量学习的研究中,传统的方法依赖于静态的、封闭的环境,需要无干扰、不变化的特征,大量的训练样本,且只能处理单一的对象语义。而实际应用场景比较复杂,是开放的,并存在“输入噪声多”、“训练样本少”、“特征变化快”、“语义表示广”等特点。本文从模型在开放环境下输入、输出层面上面临的挑战作为切入点,提出针对或利用度量学习特性的具体算法,从理论和应用等多个角度使得度量学习的研究能够契合开放的环境。本文的主要内容有:1.从理论上分析了度量学习的泛化能力,并提出策略以降低其样本复杂度。传统机器学习方法要求大量有标记的训练样本,而实际场景中,对于某些类别,考虑到样本搜集和标注的代价,只能获取极少量的有标记的样本。本文从目标函数性质以及度量重用两个角度进行泛化能力的理论分析,相对于以往的分析结果,提出如何能获得更快的泛化收敛率,即如何利用更少的样本得到同样的泛化误差。同时,本文通过大量实验进行验证,说明满足理论假设时,各因素对样本复杂度的影响与理论中给出的趋势一致。2.提出一种应用度量语义变换在小样本情况下应对特征变化的学习方法。除了仅有少量的训练样本,当在开放环境下处理新的任务时,模型也会面临特征空间变化的挑战。本文利用特征之间的关联性,提出构建特征的“元表示”空间,利用在该空间中学习的度量,将已有特征空间的分类器转换到新的特征空间上,以“重用”已有的训练好的异构分类器。提出的REFORM方法也降低了学习算法的样本和计算需求。值得一提的是,在REFORM方法重用分类器的过程中,没有历史训练数据的传输,而仅仅需要已有的模型,这也保护了不同阶段、不同任务之间数据的隐私性。3.提出能够灵活挖掘并自适应利用开放环境中复杂语义的多度量学习框架。图片、文本等对象在不同场景下往往存在丰富的语义。以往的度量学习方法只针对对象的单一语义进行建模,而忽略了语义的多样性。本文提出“语义度量”这一概念以及统一的框架UM2L,学习多个局部度量,不但能统一已有的方法、灵活挖掘出对象本身的不同语义,也能够提升后续众多实际问题的性能。针对度量数目的选择,本文也提出自适应的多度量学习框架LIFT,利用全局度量的辅助,动态地为不同的语义分配度量的数目。LIFT—方面防止模型过拟合、提升分类能力,一方面也降低了存储开销。4.提出一种利用分布扰动以适应输入特征和对象关系噪声的度量学习方法。开放动态的环境容易受到噪声的影响。一方面,输入的样本特征容易附带噪声,导致样本特征的描述不够精确;另一方面,对象之间的关联关系也会不准确,使后续相似性的学习更加困难。针对这一难点,本文首先对样本之间的距离做概率化分析,指出上述两种噪声都来源于样本特征的扰动。并提出一种基于“期望距离”的度量学习方法DRIFT。该方法在学习过程中动态地引入噪声,有效地增广数据,使模型有更好的泛化能力。利用DRIFT学到的距离度量更加鲁棒,能够更真实地反映对象之间的关系。
其他文献
随着城市化发展战略的贯彻与落实,城乡间交通联系更加紧密,城镇与农村人员流动的密度也不断增加。为此,道路拥挤以及交通安全的问题也逐渐突显出来,对人们日常生活的影响较大
问:人为什么会出冷汗?答:我们日常生活中常常听到“吓出一身冷汗”的说法。那么人真的会出一冷汗”吗?为什么会出一冷汗”?发汗分温热性发汗和精神性发汗两种。温热性发汗是由于温
李观是中唐时期古文家,以文驰声,知名当世。本文对李观的家世、生平作了粗略的考证,并对部分作品进行了系年,以便更深入的了解他的创作思想和背景。
为了建立一种直接从普通琼脂糖凝胶中回收DNA片段的简便实用的方法 ,采用聚合酶链式反应扩增人P53基因外显子7、8和其间的内含子7序列 ,用普通琼脂糖凝胶电泳,直接从凝胶中切
<正>1临床资料患者女性,64岁,农民。主因间断头晕、下肢乏力10年加重2d于2012年11月23日入院。患者10年来,间断出现头晕,测血压增高,最高达200/100mm Hg(1mm Hg=0.133kPa),口
近年来,胡锦涛的群众观在学术界引起了广泛的关注,学者们分别从胡锦涛群众观的时代背景、主要内容、实践路径以及价值和意义等方面进行了积极的探索和深入的研究,取得了一系
为了准确客观地了解城乡客运一体化发展水平,科学把握城乡客运一体化发展方向,文中通过分析城乡客运一体化系统的构成要素,从管理制度、基础设施、服务水平视角出发,设计了城