极大信息增益Relief算法研究及其在电信数据特征选择中的应用

来源 :吉林大学 | 被引量 : 0次 | 上传用户:lilei1984lilei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着当今信息社会的不断发展以及大数据时代的到来,人工智能(AI,Artificial Intelligence)的兴起正在大幅度改变我们的认知和生活,人工智能发展的背后,是对复杂的数据挖掘技术和机器学习算法的深入研究.在机器学习的实际应用中,数据的特征数量过多往往会引起“维度灾难”,使得数据分析效率降低,模型训练时间过长,模型结构过于复杂,泛化能力随之下降.特征选择能去除一些不相关(irrelevant)或冗余(redundant)的特征,提高计算效率,减少运行时间.除此之外,减少无关特征有助于理解数据,选取出真正与问题相关性高的特征有利于简化模型.经典Relief算法是一种常用的过滤式特征选择方法,它通过计算各特征和分类的相关性给予特征以权值,在进行特征选择时权值小于某个阈值的特征将被去除.经典Relief算法一般以随机样本中各特征区分其附近样本类别的能力为基础,来计算特征和类别之间的相关性.经典Relief算法的运行时间随着样本的随机抽样次数N和初始特征个数M的增加而增加,计算效率较高.Relief系列算法包括最早提出的经典Relief算法以及后来拓展来的Relief-F和RRelief-F算法,其中经典Relief算法针对的是二分类问题,Relief-F算法可以解决多分类问题,RRelief-F算法更多解决的是目标属性为连续值的回归问题.极大熵Relief特征加权(maximum entropy relieffeature weighting)算法,简称ME-Relief算法,它结合了最大间距和极大熵原理,具有更高的适应性和鲁棒性.对于数据集逐步增大的问题,ME-Relief算法已经扩展到在线版本,因而能够处理多分类数据和在线数据.本文提出了极大信息增益Relief算法,即MIG-Relief算法.该算法首先根据信息增益和间距最大化构造了新的目标函数,在目标函数中提出了具有更好光滑性的模糊差异度度量函数,减少了参数对优化目标函数的影响,从而提高了算法对数据的适应性;除此之外,本文对MIG-Relief算法的数学形式和应用方面也进行了更细致的研究.
其他文献
目前黄河下游所开展的河道整治,实际是中水情况下的河槽整治,从广泛意义上讲,黄河大堤内的河道都是行洪的通道,都属河道整治的范畴,只有保证各级流量河势稳定及防洪安全的河
会议
针对目前工业工程专业人才培养模式落伍的现状,结合国家对创新型人才的需求及对素质教育的重视,探索个性化的工业工程人才培养模式。以东北林业大学工业工程专业的培养模式为
伐区木材生产过程对原木品质有重要的影响。原木直径、垂直度、削度、枝桠与节子、尺寸稳定性、机械性能和美学等特性对锯材产品最终的加工价值、产量、产品质量与成本有显著
<正>鄂托克旗阿尔寨石窟文化遗址是由寺庙、石窟、岩刻、壁画为一体的佛教建筑遗址。它自20世纪70年代经考古界的考察而进入科研领域,自80年代末引起蒙古语言文字学术界的浓
会议
<正> 培植牛黄技术的试验成功,为解决天然牛黄资源匮乏开辟了新途径。我省自1987年开始在各地试验、示范、推广培植牛黄技术以来,逐步实行育黄手术规范化操作,塑料网架统一型
为了了解城乡结合部小学生自主学习现状并剖析原因,探究城乡结合部小学生自主学习策略。本文采用庞维国的《学习自主性量表》,选取合肥师范学院附属实验小学的四、五、六年级