面向多标注数据的机器学习算法研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:baimeimei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在传统的单标记学习中,一个对象具有单一、明确的标注,在具有确定的监督信息情况下,可学得具有强泛化性能的学习器。然而现实生活中的对象往往更加复杂,无法给定其单一明确的标注信息,存在以下两种情况:(1)一个对象具备多种语义信息;(2)单一明确的标注信息较难获得。在第一种情况中,对象具有丰富的语义信息,若只对其进行单一的标注极有可能丢失有价值的信息,因此在此种情况下,需赋予对象多个标注信息;在第二种情况中,由于标注成本较高,真实标记难以获得,只能分配给对象多个候选的标注信息。以上两种情况对应了机器学习中两种弱监督学习框架,即多标记学习与偏标记学习。值得注意的是,在多标记学习中,多个标注信息均为真实标记,而在偏标记学习中,多个标注信息仅为候选标记。在多标记学习框架下,样本不仅拥有丰富的语义信息,往往还具备多样的特征表示,即多视图多标记学习。针对此类样本,本文提出基于视图私有信息提取的多视图多标记算法Simm。该算法首先同时优化一个混淆的对抗损失与多标记损失来提取视图间的共享信息。其次,对共享子空间加入正交约束,以利用视图私有的判别信息,最后,结合共享和私有信息进行最终的语义学习。实验结果表明,该方法可对多视图多标记样本进行有效的分类。在偏标记学习框架下,学习系统的最终目标是从偏标记训练样本中学得多类分类器,而二类分解是求解多类分类问题最直观的策略。然而,由于偏标记训练样本的真实标记未知,导致现有二类分解技术难以直接用于偏标记学习建模。针对该问题,本文通过改造一对一二类分解技术,提出了一种基于二类分解的偏标记学习算法Paloc。首先对于每组标记对,选取与标记对具有直接关联的偏标记样本来构建二类训练集,并学习相应的二类分类器。然后,基于这些分类器的预测输出,利用Stacking的结合策略针对每个标记进一步地构建二类分类器,以提升模型的泛化性能。相较于经典的偏标记学习算法,在人工合成数据集与真实数据集上的实验均验证了所提算法的有效性。本文一共分为五章。第一章介绍面向多标注数据的机器学习算法研究背景、相关工作以及待解决的问题。第二章给出多标记学习与偏标记学习的框架定义,并介绍相关算法。第三、四章分别给出多视图多标记学习算法、二类分解偏标记学习算法的具体细节与实验结果。第五章总结全文。
其他文献
岩芹酸是一种十八碳单不饱和脂肪酸,是油酸的一种同分异构体。与常见的油酸有所不同,其双键位置是在△6位而不是9位。由于双键位置的不同,二者在诸多性质上存在很大差异。岩
随着移动互联网的不断发展,移动设备越来越普及,移动应用数量庞大且增长迅速。移动应用的质量保证通常采用测试进行,而移动应用是事件驱动的应用,适合使用基于界面的脚本进行
采用4种不同的真菌培养基,对我国南海海域的可培养海绵共生真菌进行分离培养。利用分子生物学手段,扩增ITS片段进行系统发育树的分析,并利用简并引物对PKS功能基因进行筛选。
5-吡唑甲酰胺类衍生物一般具有优异的杀虫和杀菌等生物活性,以5-吡唑甲酰胺为主体创制高效、低毒、环境友好的新型农药,具有重要的意义。本文保留已商品化的唑虫酰胺和氯虫苯
随着科技的发展,人类主要依赖的能源来源(石油、煤炭、天然气)终有一天会枯竭,为了能源的长期发展,各国越来越重视可再生能源的研究。据最新版《BP世界能源统计年鉴》统计,20
甘蔗是重要的糖料和能源作物,甘蔗花叶病、黄叶病和螟虫是危害着甘蔗生产的主要病虫害。传统的病虫害防治方法难以彻底解决这些问题,并且危害生态环境。甘蔗管理成本高,减少
海洋污损生物是海洋产业中长期以来一直关注的重要焦点,随着航运事业的发展和海洋开发的力度日益增加,生物污损问题也变得更为常见和严峻。光催化技术产生的强氧化自由基团可以杀死附着在涂层表面的海洋细菌,阻止后续大型污损生物的附着。本文利用半导体光催化技术,将二维共轭材料与传统光催化材料TiO2和新型光催化剂Ag2WO4、BiOIO3进行结合,以发挥二维共轭材料的吸附性和电子转移特性,使复合光催化剂具有更高
三氧化二钒作为一种优良的相变材料,具有优异的光、电、磁性能,在钢铁冶金、新型PTC材料、有色玻璃、传感器等领域具有广泛的应用。目前V_2O_3的制备工艺研究主要集中在薄膜制备方面,存在较多局限性,探索一种制备高性能V_2O_3粉体的优良工艺具有重要意义。本论文以V_2O_5为钒源材料,以草酸为还原剂,采用液相还原的方法得到钒酸盐干凝胶前驱体粉体,通过煅烧前驱体粉体得到V_2O_3粉体,并对所得产物
目的:新疆维吾尔族妇女的宫颈癌发病率和死亡率较高,其早期发现是有效治疗的关键。为了筛选宫颈癌特异差异表达基因,建立肿瘤早期诊断指标,国内外学者开展了宫颈癌的转录组学
目的:利用人类全基因组表达谱芯片,研究维吾尔族妇女宫颈癌及癌前病变组织特异性差异表达基因谱,筛选下调表达候选基因,定量检测候选基因的特异性和灵敏度,建立宫颈癌的早期