基于需求的特征选择

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:dlghk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征选择是机器学习领域中一个重要的研究方向。尤其是近年来,随着很多以高维小样本为特征的实际问题的涌现,如:自然语言处理、生物信息、经济与金融、网络与电信和医学等数据分析领域,特征选择问题又一次成为人们关注的焦点。然而,这一次研究特征选择的目的并不是出于节约资源,而是为了提高分类器的分类精度和满足人们日益增长的个性化需求。   Rashomon问题在特征选择领域是一个普遍的现象。对于传统的特征选择目标来说,Rashomon现象可能是一个灾难。但是,对于以需求为导向的特征选择问题来说,Rashomon现象可能正好提供了为不同的需求寻找不同的解的可能性。   传统的特征选择算法往往是要寻找使得某个评价指标最优的一个特征子集。由于其特征选择的过程独立于用户的需求,因此,传统的特征选择算法通常不能够满足用户的不同需求。为了满足不同用户的个性化需求,以用户需求为导向的特征选择算法就应运而生了。在这里,用户的需求被描述成用户的一种特征偏好,用一个线性的特征序来表示。因此,如何评价一个特征子集对用户需求的满意程度以及如何求解最能满足用户需求解的问题就成为以用户需求为导向的特征选择算法的核心问题。   近年来,在处理高维问题时,通过进行有效的特征选择来提高分类器的分类精度和模型的稳定性的研究为特征选择的研究注入了新的血液。这类问题的研究往往被形象地称为变量稀疏化问题。对特征选择来说,这类特征选择方法被称为Embedded特征选择算法。   另一类提高高维小样本问题的分类精度和模型稳定性的方法就是设计基于替代训练集的多分类器系统。在多分类器系统中每个替代训练集以及相应的分类器模型都可以看作是对真实问题的一个侧面的描述。通过对问题不同侧面描述的组合,希望获得一个更加稳定的分类器模型。为此,我们设计一个多局部分类器系统试图解决高维小样本问题。其中,每个替代训练集是基于某个reduct的训练子集,不同的替代训练集需要不同的reduct,因此,一个以算法需求为导向的特征选择算法被提出。另外,一个实际的高维小样本问题被介绍用来验证多局部分类器系统的有效性。   本论文的主要成果是:   ①对特征选择算法的发展历史和主要方法进行了较为详细的综述;   ②探讨了特征选择问题中的Rashomon现象;   ③明确提出以用户需求为导向的最优reduct的定义,并证明基于属性序的最优reduct问题是NP-Hard问题,同时给出了一个领域贪婪的reduct算法;   ④提出了以算法需求为导向的特征选择算法,并在此基础上设计了一个多局部分类器系统。分析了一类典型的高维小样本问题-WSD问题,并用这个实际的例子验证了多局部分类器系统的有效性。
其他文献
随着Web信息的与日俱增,使用机器处理这种信息成为一种必然的趋势。语义Web应运而生,成为当前研究的热点之一。它以本体为核心,为不同领域提供共享的词汇,以便机器处理Web信息。
随着互联网上的文本信息的爆炸式增长,网络在提供了信息获取途径的同时却给人们带来了如何在每天都不断涌现的海量信息面前更快速、准确地获得有用的信息的难题。为了缓解这种
软件定义网络(SDN)是一种将控制与转发分离的革新的网络架构。SDN的集中式控制和可编程性使得网络管理灵活化、敏捷化成为可能。目前,SDN已经被越来越多的云服务提供商、电信
三维虚拟逃生系统是基于3D虚拟技术的互动式系统,给使用者提供了一个模拟灾难发生后进行逃生自救行为的数字化平台。在灾难中有很多人因为对灾难环境不熟悉、恐慌等原因没有
在并行分布式系统中,互连网络拓扑结构决定性能。至今为止,已经提出了相当多的互连网络拓扑结构。自从S.B.Akers与B.Krishnamurthy倡导把Cayley图作为对称互连网络模型之后,网络
本文按照柔性制造系统(FMS)的实际情况和具体功能要求,首先介绍了FMS的相关概念和其工作流程,在此基础上抽象了FMS管理控制系统本体对象分类树。然后基于设计模式设计了FMS管理与控制系统的软件结构。根据软件设计模式对管理与控制系统Agent的各模块进行规划,将FMS管理与控制系统的各部分功能设计成相对独立的模块,增强了系统的可维护性。最后使用面向模式的分析设计方法(POAD)将各个模块通过接口聚
随着网络信息技术的飞速发展,我国的信息化建设也在全面进行,同时信息化建设的过程中也面临着严峻的考验,其中,在电子政务建设和发展中的信息安全问题就是一个典型的代表。而数字
地理信息系统(GIS)是以采集、存储、管理、分析、描述和应用地球表面与空间和地理分布有关数据的计算机系统。GIS广泛地应用于环境、自然资源、日常生活、及政府管理和军事等
近年来,随着以互联网技术为代表的信息技术的迅猛发展,各种文字、图像、声音和视频等媒体的获取、保存与使用方式发生了很大的变化。这一方面给人们带来了极大的方便,但另一方面
三维虚拟人建模是计算机视觉、计算机图形学以及虚拟现实等研究领域中一个备受关注的前沿方向,在计算机动画方面具有广阔的应用前景,不仅具有重要的研究意义,而且具有很好的应用