基于信息理论的特征选择算法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:liongliong565
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像处理、信息检索以及生物信息学等大规模机器学习问题的不断涌现,对已有的特征选择算法和机器学习算法提出了严峻的挑战,迫切需要适应大规模数据集的准确性和运行效率等综合性能较好的特征选择算法以及机器学习算法。本文在高维数据的特征选择以及无监督的动态特征选择方面开展了研究。本文首先介绍了信息理论和特征选择的基础知识,并且介绍了几个典型的特征选择方法,其中ReliefF算法被公认为一种简单高效的Filter类型的特征选择算法。针对ReliefF算法的不足,利用信息论中的散度对其进行了改进,在相同的时间复杂度下,使得结果的有效性得到了一定的改善。为了弥补Individual Evaluation结果的有效性较差和Subset Evaluation的效率较低的缺点,提出了两步法的特征选择框架,并且实现了去除冗余特征的算法,在保证结果有效性的前提下相对于Subset Evaluation大大降低了时间复杂度。对无监督的特征选择算法进行了尝试性的研究,在增加无标签样本的情况下实现了对特征集合的自动修正,验证了这种实验方法的可行性。
其他文献
计算机图形学中,三维标量场一直是可视化研究的重要应用领域,面对标量场中庞大的数据集,无论是科学研究还是经济需要,特征可视化都成为一个活跃的研究方向,三维标量场的拓扑分析方
视频监控中运动目标的检测与跟踪是计算机视觉和图像编码领域的重要研究项目之一,在军事、医学和科研等领域都有广泛的应用。运动目标检测与跟踪算法的设计直接影响跟踪效果
聚类是一门非常重要的技术。所谓聚类就是按照某种度量(相似性度量、不相似性度量或距离),根据一定的准则将个体集合分成若干类,使得同类个体之间的相似程度大于不同类个体之
由于Web海量的信息处于不断的变化中,搜索引擎己经很难再为用户提供一个高质量的、全面并且更新及时的信息搜索服务,其局限性在于它试图索引全部Web信息并服务于所有主题的查询
近几年来,随着信息技术的飞速发展,计算机网络在人类生活的各个领域已起着越来越重要的作用。由于Internet使用的网络协议在早期设计上对安全问题的忽视,导致网络安全事故屡
近年来,无线网络带宽的增长、终端处理能力的快速提高、编解码技术的日益成熟,使得移动流媒体技术有了长足的发展,移动流媒体业务得到了广泛开展,宽带接入和移动化的时代已经
随着技术的飞速进步和业务需求的与日俱增,存在于每个企业中的信息系统也在不断更新和增加,由于每个系统开发的年代不同、开发采用的工具、语言不同、系统运行的平台不同,这
目前,人们对服务质量、网络安全、网络管理等方面的需求日益迫切,传统互联网结构越来越高的复杂性给网络运营、管理、扩展、新业务的部署带来了很大问题。因此传统互联网结构
工作流技术是当前计算机应用领域的一个研究热点,利用工作流技术对企业进行业务过程的建模和分析不仅可以规范化企业的业务流程,发现业务流程中不合理和低效的环节,进而对企
学位