迁移学习中文本分类算法研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:xczsb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在传统机器学习中,为了保证训练得到的分类模型具有高准确性和可靠性,都有两个基本的假设:(1)用于学习的训练样本与新的测试样本满足独立同分布条件;(2)必须有足够可利用的训练样本才能学习得到一个好的分类模型。但是,在实际应用中我们发现这两个条件往往无法满足。首先,随着时间的推移,原先可利用的有标签样本数据可能变得不可用,与新来的测试样本的分布产生语义、分布上的缺口。另外,有标签的样本数据往往很缺乏,很难获得而且人工标记费时耗力。为了解决这两个问题,迁移学习研究成为近年来十分重要和具有挑战性的课题。迁移学习是运用已有的知识对不同但相关领域问题进行求解的新的一种机器学习方法。它放宽了传统机器学习中的两个基本假设,目的是迁移已有的知识来解决目标领域中仅有少量有标签样本数据甚至没有的学习问题。   本文对迁移学习中分类算法进行了研究,由浅入深,由简单到复杂,提出了几种迁移学习分类算法。首先研究了从单个源领域(也叫训练集)到单个目标领域(也叫测试集)的学习算法,然后对多个源领域到单个目标领域的算法进行了研究,继而到更加一般的情况,研究同时处理多个源领域与多个目标领域的学习算法。最后,对本文提出的几个多源跨领域学习算法进行比较。取得的主要成果如下:   1.提出基于混合正则化的无标签领域归纳迁移学习方法。首先,分析了直推式迁移学习(Transductive Transfer Learning)方法桥接精化(Bridged Refinement)中存在的类别比例漂移问题,然后提出归一化的方法使得预测的类别比例接近于实际样本类别比例。更进一步,提出了一种基于混合正则化框架的归纳迁移学习算法。其中包括目标领域分布结构的流形正则化,预测概率的熵正则化,以及类别比例的期望正则化。实验结果表明,1)加入类别先验可以提高桥接精化算法的分类性能;2)本文提出的归纳迁移学习算法优越于其他现有常用算法,同时最后得到的模型可以直接对新来的目标数据进行预测。   2.提出一种有效挖掘词特征聚类与文档类别关联关系的迁移学习算法。虽然文本分类问题中源领域与目标领域数据在原始词特征上分布不一样,但不同数据领域可能共享词特征聚类与文档类别之间的关联关系。非负矩阵分解算法已经广泛运用于文本分类,聚类,模式识别等机器学习领域,而且非负矩阵分解算法可以很好的利用该关联关系,因此本文把非负矩阵分解算法引入到迁移学习领域,提出一种有效挖掘词特征聚类与文档类别关联关系的联合优化框架。为了求解该优化问题,设计了一个迭代算法并从理论上分析了该迭代算法的收敛性。大量实验表明,所提出的算法可以有效解决迁移学习分类问题,并且在知识迁移比较困难的情况下表现更加优异。   3.提出基于一致性正则化的多源跨领域学习框架。在实际应用中,有标签样本往往来自于多个源领域,而且多个源领域之间分布不同但语义相关。因此,如何开发利用多个源领域之间的分布差异性来进行知识迁移,使得在目标领域数据上的分类性能尽可能好?这是一个比从单个源领域学习更有挑战性的研究问题。本文提出了基于一致性正则化从多源领域到目标领域的跨领域分类学习框架。在这个框架下,局部的子分类器不仅考虑在源领域上可利用的局部数据,而且考虑了这些由源领域标签数据得到的子分类器在目标领域上的预测的一致性。更进一步,从理论上分析了一致性正则化框架的有效性。最后,为了处理各个源领域数据在地理上分布的情况,提出一致性正则化框架的分布式实现,可避免收集各个领域数据到中心节点,而只是传递一些统计变量,这在一定程度上减轻了数据信息的隐私性担忧。   4.研究基于生成模型的挖掘多领域之间共性与特性的跨领域分类方法。该项工作对有效挖掘词特征聚类与文档类别关联关系进行了深入研究。基于非负矩阵的迁移学习方法缺乏完整的概率解释,而且很难用到多个源领域和多个目标领域数据。本文进一步提出基于生成模型的有效挖掘多领域之间共性与特性的跨领域分类方法。共性是指与领域数据独立的词特征聚类与文档类别之间的关联关系,而特性是指不同的领域数据用不同的关键词特征来表示同一词概念。因此可以有效开发利用不同领域之间的共性作为知识迁移的桥梁。为了求解该算法,设计了一个EM算法。实验结果表明该算法可以同时处理多个源领域和多个目标领域,而且可以有效解决分布不同性程度较高的迁移学习问题。   5.对多源跨领域学习算法进行比较。该项工作首先扩展基于非负矩阵分解的跨领域学习方法到处理多源领域的情况,然后对基于生成模型跨领域学习算法进行改进。最后进行了系统的实验比较。实验表明,该算法优于传统的监督学习算法,也比以往的跨领域学习方法优越,而且能够处理迁移学习比较难的分类问题,具有较强的迁移学习能力。     
其他文献
翻涌的流水,缭绕的烟雾,摇曳的烛火,这些都是人们平时眼熟能详的流体现象。但是流体的运动机理较为复杂,若要在计算机上模拟流体的运动并呈现其精美的视觉效果,最有效的手段就是追
Internet资源的成长性、自治性和多样性,使得面向Internet的资源共享面临很大困难。基于Internet的虚拟计算环境(Internet-based Virtual Computing Environment,简称虚拟计算
近年来,在中间件技术的基础上,结合软件复用和面向对象的思想,构件化设计和开发作为一种提高软件生产率和软件质量的有效途径,并在实践中得到广泛应用。目前,基于构件的软件
干扰是影响移动通信网络运行的关键因素,对通话质量、掉话、切换、拥塞均有显著影响。如何降低或消除干扰是网络规划、优化中的一个关键问题。在目前2/3G网络干扰日趋严重并
随着计算机、通信和多媒体技术的高速发展,特别是互联网络的出现和大范围普及,数据图像呈爆炸式增长趋势,使图像资源数量迅速增加,过去基于关键字的分类技术显然不能满足人们
OA(Office Automation:办公自动化)是企业信息化建设的重要组成部分。办公自动化系统的发展恰好与数据、信息和知识的演变同步,即以数据为主要处理内容的第一代办公自动化发展
Android版本的频繁更新是导致Android生态碎片化问题的一个重要原因。为了使Android应用可以在多个Android版本上使用,应用程序开发者不得不为其开发的应用进行兼容处理。然而
SaaS(软件即服务)是近几年新起的一种新的软件交付和商业模式,并且随着云计算概念的提出和普及,SaaS成为了标准的云应用层模型。多承租架构是SaaS型软件的核心实现技术,该架
数控系统中的运动轨迹控制技术是确保数控高速、高精以及高表面质量加工的关键技术,也是评价数控系统性能的重要指标。国内外相关研究机构及各大数控系统开发厂商均将其作为努
电力系统的无功优化是提高电能质量、降低网络有功损耗和保证电力系统经济安全运行的重要措施。随着社会的发展和人口的增加,电力系统的负荷急剧增加,因此对能稳定的应用到更大规模电力系统无功优化问题的新的优化计算方法的研究是有重要意义的。社会情感优化算法是一种新的模拟人类行为的群智能优化算法,本文首先对社会情感优化算法做了具体的描述:为模拟人类能够利用自身的情感准确决策的能力,社会情感优化算法构建了情感集和