代价敏感的多视角数据分类研究

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:zwsbjh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在机器学习算法中分类作为数据分析的手段已被广泛的应用在工商业以及科学研究中。由于数据多元化的结构特征使得很多数据呈现了多视角的特性。多视角数据相比于单视角数据而言通常扮演着更为重要的角色。主要原因在于多视角数据可将数据信息描述得更为全面,视角间遵循着一致性和互补性原则,在数据挖掘的过程中可以训练出更为适宜的模型。在生物信息识别领域中,多视角数据分析已取得重大成果,如人脸识别等。随着对多视角学习的深入研究,研究者发现了一些问题。首先,高维度复杂化的数据在学习模型过程中会由于大量的噪音而使得算法的时间复杂度过高。其次,当所收集到的数据内部分布是不平衡的状态时,该类型的多视角数据必将会导致分类器偏向于类别数目较多的数据,从而使得分类性能将会下降。最后,多视角数据在分类的过程中会产生误分类的代价。针对以上问题,本文通过在多视角数据分析中引入代价敏感学习来解决不平衡数据在分类中的误分类问题。由于在收集数据的过程中存在难度大、高额的成本代价以及设备故障等因素,数据缺失的问题会频繁地出现。这不仅会增加数据分析的难度,还会影响模型的构建以及数据分析的结果。当前处理缺失数据集分类的方法主要包括属性独立性假设和随机缺失。另外,缺失填充方法也可作为处理缺失数据的一种有效处理的手段。由于前者在处理缺失数据时,依旧会面临着时间复杂度很高,以及算法效率不理想等问题。因此,本文使用缺失填充的方法来处理缺失问题,来进一步减轻缺失数据对于模型训练的影响。其核心内容及原创点如下:1.针对多视角数据在分类过程中类间不平衡性以及噪音的问题,本文提出了一种基于代价敏感的多视角数据分类的处理方式,该方式是针对完整数据集而言的,通过使用了L21-范数并有效的结合了数据在样本水平、类水平、视角水平的权重,来降低这三个方面的噪音影响,并在实验中计算总的误分类代价来验证提出的方法优于其他的对比算法。2.当多视角数据中存在缺失数据时,本文在样本约束和代价敏感学习的基础上,提出了缺失填充的数据分类方法。该方法通过使用缺失值填充的方法来促使缺失数据变为完整的数据,在对比实验中采用了单一填充和多重填充的方法,最终实现了数据分类分析的过程。另外,同时采用了权重分析策略,在理论中也消除了多视角数据中不同层面的噪音。经实验验证,本文所提出的分类方法具有更好的鲁棒性和分类性能。综上所述,本文提出的方法是基于代价敏感基础上的多视角数据分类研究,有效改善了类间不平衡数据在分类中出现的误分类问题,以及通过使用缺失值填充的方式来补充缺失属性,使得提出的算法在不同的评价指标上获得更好的分类性能。在未来的工作中,本人将考虑结合使用深度学习方法进行分类分析,来进一步地优化和提升提出的分类算法的性能。
其他文献
近年来,互联网的高速发展导致了数据量的急速上升。不同行业的数据通过个人或者企业交织在一起产生了庞大的数据网,例如社交网络、飞机航线和生物科技之间的信息交流等,忽略一些不必要因素,这些常见的应用交互场景可以被抽象成数据结构:图。根据图的时态属性,图可达性查询研究可以被分为两个方向。一种是静态图可达性查询,近几十年的研究主要集中在静态图上;另一种是时态图可达性查询,在这方面上相关的研究才刚刚起步。时态
随着物联网(IoT,Internet of Things)的兴起,嵌入式系统的网络安全问题越来越受到大家的关注。目前,人们把一些在计算机网络运行的安全协议应用于嵌入式系统中,最常见的如SSL
在未来,电力系统为了提高自身效率和经济价值,其运行可能会更接近稳定极限,大量新能源的接入,以及电力市场化的改革使得系统动态变化更加复杂,基于模型的传统电力系统稳定评
在形式化验证领域,下推系统(pushdown systems)常用来建模单线程递归程序,良结构迁移系统(well-structured transition systems),比如向量加法系统(vector addition systems)
随着科学技术的发展,对现代控制技术的研究也逐渐深入,自动控制理论在工程应用中有不少实际应用,但是伴随着问题规模的不断变大,对系统的功能要求越来越复杂,传统的集中式控
分布式任务调度问题在大数据时代具有重要的地位,同构处理器环境下的任务调度问题是此类复杂问题的基础。它所研究的是如何将多个具有先后顺序约束关系的任务分配到可用处理器上进行执行,达到最小化调度长度(Makespan)的目的。此问题是NP难度的,除非P=NP,否则在多项式时间内不能得到精确解。该问题得到了学者们的广泛研究,并致力于找到高效、简单且占用资源少的方法来解决该问题。国内外代表性的求解思路包括基
口腔白斑(OLK)是一种癌前病变,由于其与口腔内健康组织有视觉相似性,导致难以准确区分。目前对OLK的诊断主要来自专业医生的经验,但这种方式效率低,诊断受主观影响大。本文希
目前,信息化在各行各业已经发展起来,成为经济发展的重要力量。但是由于计量检定业务的专业性与特殊性,计量行业的信息化发展水平明显落后于社会信息化平均水平。云计算技术
高光谱遥感技术从20世纪80年代以来发展迅速,由于其具有“图谱合一”以及光谱分辨率高的特点,被广泛应用于农业生产、环境监测、城市规划和军事勘探等领域,并发挥着越来越重
《渡人越境者》这本书属于纪实文学,作者是拉斐尔·克拉夫特,2017年由Bucbet Chastel出版社出版。这本书讲述了来自非洲和中东地区的难民来到法国寻求帮助,或是想穿过法国去往另一个国家。拉斐尔·克拉夫特是一名自由记者,1974年出生在法国。出于人道主义精神,他希望帮助难民,但法律禁止难民跨越边境,因为大量难民的涌入会造成严重的社会问题。我选择了这本书的前六章来翻译。近年来,难民问题引起了越