基于消歧策略的偏标记学习算法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:yaoyaolf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在强监督学习中,每个示例有着明确的标注信息,但是随着大数据时代的到来,标注示例所需的时间成本和金钱成本增加,弱监督学习越来越受到人们广泛关注。偏标记学习是一种弱监督的学习框架,这种学习框架在现实社会中有着广泛的应用,比如:自动标注系统,来自不同背景的人做了不同的标注,但是其中只有一个标记是真实标记;一篇新闻报道出现了多人的名字和一张合照,但是人和名字的匹配信息并不清楚。偏标记学习的目的是从有候选标签集合的样本中学到一个多分类模型。现有的偏标记学习往往针对单个示例消歧,而忽略了利用全局语义信息更好的获取正确标记;并且大多数训练模型都直接采用原始特征信息,而缺少了对于特征的处理。因此,本文提出以下两种偏标记学习算法。为了更好的利用全局语义信息获取真实标记,为了降低冗余特征对模型泛化性能的影响,本文提出了一个基于特征子空间表示和标记全局消歧策略的偏标记学习算法。该算法的创新点有两个,一方面,将子空间表示引入到偏标记学习模型中。特征子空间应该具有三种属性:判别性,一致性,和紧凑性。采用最小二乘损失确保特征子空间更具有判别性,利用图拉普拉斯约束确保特征子空间和原始特征空间的流形结构一致,使用正交约束确保特征子空间是紧凑的没有冗余。另一方面,本模型充分利用了全局语义信息,消除标记候选集中的伪标记。全局语义信息可以解释为两个原则,局部一致性原则,相似的样本有相似的标记;和稀疏性原则,多分类样本的标记空间应该是稀疏的。基于以上原则,本模型引入了标记置信度矩阵,并且为了确保标记置信度矩阵的稀疏性,采用?"范数,为了确保标记置信度矩阵的一致性,引入图拉普拉斯约束。充分的实验表明,本模型与现有的偏标记学习算法相比具有很好的竞争力。由于偏标记学习中伪标记的存在,我们很难直接从候选标记集合中学习分类模型,往往都是先对候选标记集合进行消歧处理,而消歧的本质依据就是一致性,即相似的样本应该有相似的标记分布。因此,偏标记学习的科研工作者们提出了各种探索样本相似性的算法,包括:基于K近邻的偏标记学习算法和基于最小重构损失的偏标记学习算法等。本文提出了基于低秩表示的偏标记学习算法,创新性的使用低秩约束探索样本之间的相似性。具体的,在特征空间,利用低秩约束学习样本的自表示信息,充分挖掘样本之间的相似性。在标记空间,利用样本自表示信息构建约束矩阵,使相似的样本具有相似的标记分布;利用惩罚项约束标记空间,确保标记空间的稀疏性。大量实验表明,该算法有较好的学习效果。
其他文献
学位
学位
学位
石墨烯量子点(GQDs)因其具有独特的量子限域效应和边缘效应在一众碳基材料中脱颖而出。通过还原剂还原、表面/边缘功能化减少缺陷,或异原子掺杂改变结构及电子特性,可进一步提高其荧光效率、光学及化学稳定性。而受现有透析技术及透析膜本身的孔径大小限制很难得到粒径均一的GQDs。最近发展起来的盐析萃取与有机萃取技术能更好地完成GQDs的分离及纯化。纯化后的GQDs具有均一的粒径、高纯度及在有机相的可溶性,
学位
学位
The China-Pakistan Economic Corridor(CPEC)is a corridor composed of roads,railways,oil and gas pipelines,optical cables and power lines.The corridor is extended from the north of Kashgar in China to t
学位
学位
结构的稳定性和耐久性取决于设计标准和构造方法。在实际应用中,如果不考虑之前在项目区域周围发生的意外事件(例如地震),可能会对其产生影响。由于环境的变化,地震事件的发生率大大增加。在这项工作中,已经讨论了地震控制装置的分析和制定。通过非线性SAP2000软件版本对斜拉桥中的地震控制装置进行了评估。已经获得了不同结构配置的设计标准。第一种方法是确保所研究的斜拉桥的原始系统在其自身重量下的承载能力。然后
面向由人车路多要素构成的现代交通系统,传统交通管理手段导致交通拥堵状况日益严重,车路协同技术成为当今智能交通领域的前沿技术和必然发展趋势。由于不同智能等级的异构车辆融入交通后形成了新型混合交通环境,传统的车路协同仿真与测试技术已无法解决混合交通流现象所带来新的交通问题,车路协同典型应用场景也无法完全覆盖混合交通的功能特征,对车路协同混合交通场景功能进行测试并建立场景测试案例有很重要的意义。然而交通