论文部分内容阅读
近年来,机器学习在大数据应用中取得了很大的成功,应用场景和范围日益丰富,涵盖了计算机视觉,自然语言处理,智能医疗等众多领域。大数据为机器学习的发展带来机遇的同时也带来了挑战,突出的表现为数据标记困难。数据类型多样、数据产生环境复杂、数据更新速度快等因素,导致在实际应用中往往只有少量的标记数据可以利用,大大降低了模型泛化能力。如何利用有限的人工标记提高数据的分类精度,即小样本问题,是当前机器学习领域的前沿问题之一。主动学习技术是机器学习领域解决小样本问题的基础方法之一,其利用人机交互的方式,从大规模数据中选取最具有信息量的样本进行人工的标记,逐步的建立高质量小样本训练数据集,来提升分类模型在小样本下的泛化能力。本文面向小样本下的数据分类和预测任务,系统地研究了利用主动学习解决分类任务中数据匮乏的方法。不确定性和代表性是主动学习查找最具信息量样本的两大核心准则。不确定性主要是为了查找数据中类别间界面附近的数据点,代表性主要是为了挖掘数据集中的分布结构、减少冗余和加速学习。本文为了提升主动学习的性能,设计了一系列不确定性信息和代表性信息统一结合的样本学习模型,主要创新点包括:1)针对单标签数据分类问题,本文提出了将双样本理论和不确定性结合的启发式主动学习框架,框架中基本上涵盖了进行理想样本查询的所有条件,克服现有主动学习方法框架通过约束假设表达数据结构造成算法适应性差的难题。依据此框架进行主动学习算法设计,可以选择出即具有不确定性又具有代表性的样本。2)针对多标签数据分类问题,本文提出了基于最大相关熵准则的鲁棒多标签主动学习模型,解决异常低相关标签影响主动学习中不确定性和代表性准则准确表达的难题.提出的模型主要是利用最大相关熵准则的有界性,抑制低相关标签在两种准则衡量中影响,发挥强相关标签在衡量中的主导作用。3)针对半监督和主动联合学习中存在的半监督信息欠缺问题,本文提出了一种融合代表性和判别性的半监督主动学习方法,主要是利用主动学习循环中更新前后的标记集,建立多个分类模型和聚类模型,依据分类模型对未标记样本分配可靠性伪标签获得判别性样本,依据聚类中的近邻原则进行未标记样本的伪标签标记获得代表性样本,而不能进行伪标签分配的样本则作为主动学习样本查询的候选集。通过这种融合方式,可以极大地丰富标记集中判别性和代表性信息,快速提升主动学习的性能。4)针对领域适配和主动学习联合学习中不确定性与代表性准则框架不统一的难题,本文提出了一种领域适配协同的多域主动学习方法,将目标域数据和源域数据嵌入到一个不确定性和代表性联合的主动学习框架中进行目标域样本的查询,同时在主动学习中不断调整源域数据分布,使其更加适合目标域分类任务,大大提高跨领域分类问题精度。