基于双层结构和优序选择的多标签分类研究

来源 :四川师范大学 | 被引量 : 0次 | 上传用户:ebeggar
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类是数据挖掘技术中的一个热门研究分支,它主要是利用样本数据集来构建一个分类模型,并使用该分类模型对未知样本实例进行类别信息的预测。在传统的单标签分类中,一个样本实例仅隶属于一个类别。然而,真实世界中却存在大量的多义性实例,即一个样本实例可能同时隶属于不同的类别,相应的分类问题被称作为多标签分类问题。最初,多标签学习起源于分档归类中遇到的多义性问题。经过数十年来的发展,多标签学习技术已在医疗诊断、生物遗传学、推荐系统、信息检索、图像视频等领域得到了广泛应用。随着多标签学习热度的持续上升,解决多标签分类问题的算法层出不穷,很多算法(如BR、CC、MBR)在设计过程往往存在忽略标签间的关联性、随机选择标签序列、冗余交互标签信息及交互过程中信息缺失等因素而导致算法的分类精度降低的问题,特别在将多标签分类转化为一个或者多个二元分类来解决分类问题上最为显著。针对上述存在的诸多问题,本文首先提出了基于双层结构的链式多标签分类(DLMC)算法,该算法构建了一个双层结构的分类模型,旨在通过层间交互和层内交互来实现标签间的关联性。第一层采用典型的二元关联分类模型实现对实例的第一次分类,并与第二层进行标签信息的交互;第二层构建带有更新过程的链式分类模型,用链来传递和更新标签信息,实现分类信息的二次交互。其次,提出构建具有最大权重的标签生成树(MWTOS)算法,寻求标签优序,以解决链式分类模型因随机选择类标号序列对二值分类器进行训练而导致分类精度降低的问题。然后,提出基于双层结构的多标签优序选择分类(DLMOS)算法,该算法是一个汇集了三个框架模型:二元关联分类模型,链式分类模型,嵌套堆叠模型于一体,并携优化处理过程的分类模型。该模型在兼并DLMC和MWTOS优点的同时还解决了信息交冗余及缺失的问题。最后,构建了具有较强关联性的模拟数据集,使用已知的关联性数据去验证DLMOS算法处理标签关联性的能力。最后通过在基准数据集和模拟数据集上与相关算法作比较,验证算法的有效性。
其他文献
由于企业信息化是一个渐进的过程,所以在企业中会出现信息孤岛的问题,它们同时构成了企业的异构数据库结构。如何解决这个问题,使得企业数据能够共享,是计算机领域研究的一个
随着经济全球化时代的到来,为应对企业之间日益激烈的竞争,一种新型的管理运作模式——供应链管理应运而生。经过多年的发展,供应链管理在很多领域取得了成功。复杂的网络结构和不断变化的外部环境降低了供应链应对突发事件的灵活性,尤其近年来随着供应链全球化,由于物流中断造成供应链遭受重大损失的事件在世界范围内时有发生,因此研究供应链物流中断的管理策略已成为热门并引起了广泛关注。本文基于多Agent的系统建模与
即时消息业务、短信业务都属于消息业务。消息业务具有价格低廉,准实时的特点,这使得它成为下一代网络中非常重要的一个业务类型。现有的即时消息系统主要应用于互联网领域,
图像识别与处理技术于20世纪70年代首先在西方发达国家应用于实际生产。它的出现对劳动生产率的提高具有重大意义。随后,图像识别与处理技术在世界范围内被深入研究,并广泛应
在CAD/CAM造型系统中,随着曲面造型技术的发展,人们也提出了许多相关的理论。由于在实际的曲面设计中,很多复杂曲面是无法通过简单绘制一个曲面来实现,而是需要绘制多个曲面共同组
随着IT产业的高速发展,基于计算机网络的视频监控系统成为计算机应用领域中重要的研究方向之一,它必将成为人们生产、生活中安全防范系统的重要组成部分。近年来,随着超大规
本文对人脸识别相关问题做了一系列深入的研究,其中包括人脸识别的基本概念、人脸识别研究的背景和意义、人脸识别的发展历史、人脸识别方法和应用系统等。本文提出了一种新的
随着科学技术的日新月异,特别是互联网的快速发展,各种信息情报激增,人们可以通过各种手段快速获取大量的文本资料,但是如何对所获取的资料进行科学而有效地管理,如何运用计算机对
在大多数大型枢纽机场,值机柜台是一种紧缺的资源。由于资金和场地等客观因素的制约,面对不断增多的航班和旅客,机场方面无法大规模地扩充值机柜台,只能寻求挖掘现有值机柜台的潜
自从上世纪50年代中期创立仿生学以来,人们不断地从生物进化的机理中得到启发,提出了许多用于解决复杂优化问题的新方法,比如神经网络、遗传算法、模拟退火算法、进化规划等,并成