【摘 要】
:
特征选择是当前机器学习和数据分析中去除不相关和冗余特征从而提供快速可靠分析的关键步骤。在众多的特征选择算法中,粗糙集属性约简不失为一种较为有效的方法。经典粗糙集理论之后出现了模糊粗糙集、邻域粗糙集、变精度粗糙集等更具实用价值的理论。然而,为了利用粗糙集属性约简算法获得最优解,需要对解空间进行遍历,计算量过于庞大。例如邻域粗糙集在单次求解的过程中需要比较每一个样本与其余样本之间的距离,时间复杂度相当
论文部分内容阅读
特征选择是当前机器学习和数据分析中去除不相关和冗余特征从而提供快速可靠分析的关键步骤。在众多的特征选择算法中,粗糙集属性约简不失为一种较为有效的方法。经典粗糙集理论之后出现了模糊粗糙集、邻域粗糙集、变精度粗糙集等更具实用价值的理论。然而,为了利用粗糙集属性约简算法获得最优解,需要对解空间进行遍历,计算量过于庞大。例如邻域粗糙集在单次求解的过程中需要比较每一个样本与其余样本之间的距离,时间复杂度相当高,在处理大型数据集时耗时将会很长。目前该类算法大部分使用前向搜索的启发式方法寻找次优子集。针对传统粗糙集属性约简算法耗时过长的问题,以及如何寻找更接近最优解的特征子集,本文主要从以下两个方面进行研究:(1)属性约简(特征选择)作为数据预处理的重要环节,一般需要通过计算属性的相关性、重要性等指标来进行筛选。在粗糙集属性约简算法中,大多以属性依赖度作为筛选属性子集的标准。本文设计了一种快速依赖计算方法FDC,通过直接寻找基于相对正域的对象来计算依赖度,而不需要预先求出相对正域,相比传统方法在速度上有明显的性能提升。此外,通过改进鲸鱼优化算法(Whale Optimization Algorithm,WOA)使其能够有效应用于粗糙集属性约简。最后结合上述两个方法,提出一种基于Spark的分布式粗糙集属性约简算法SP-WOFRST,并在两组人工合成的大数据集上与另一种基于Spark的粗糙集属性约简算法SP-RST进行对比实验。实验结果表明所提出的SP-WOFRST算法在精度和速度上均优于SP-RST。(2)传统邻域粗糙集求解正域时,需要比较每一个样本与其余样本之间的距离,导致邻域粗糙集属性约简算法的时间复杂度达到了O(|C||U|~2),其中|C|代表属性总数,|U|代表样本总数。因此面对大数据集时,这类约简算法难以在一个可接受的时间范围内求得结果,而并行计算是处理这类问题的一种有效解决方案。本文提出了一种邻域粗糙集并行属性约简算法PFARNRSB。该算法通过建立邻域桶划分法将数据集中的样本根据距离划分为一系列的桶,并利用邻域的对称性与传递性特点来减少求解正域时的计算量。实现了算法的单机版与集群版,前者可充分利用多核心处理器的算力来提高运算效率,后者在如今热门的Spark平台上实现,适用于多节点的集群。在UCI数据集上的实验结果证明,该并行算法相较于传统算法在效率上有显著的提升。
其他文献
明清江南社会经济史是明清史研究中的重要领域,而“江南”这一概念则是明清江南社会经济史一切研究的原点和所有理论的基础。然而,“江南”一词的内涵并不单一,在不同的时代
利用光催化技术产生氢能源旨在解决能源危机问题早已成为人类的关注热点。半导体催化剂CdS由于其高效的光能利用率,以及优异的还原能力而在光催化产氢应用的众多半导体中脱颖
近年来水声通信蓬勃发展,在国防军事领域具有重大战略地位,在资源探测、潜水活动等民用领域中也被广泛应用。正交频分复用(OFDM)技术的频谱利用率高,抗多途能力强,通信速率高,适合应用于高速水声通信领域。本论文对一个时分复用OFDM水声通信机的设计与实现展开论述,并对系统设计过程中的关键技术进行了研究。针对浅海的时变水声信道,提出了一种基于可变导频的信道估计方法,该技术利用轮流插入导频的信道估计策略,
V基合金是一类具有鲜明特点的氢渗透材料,然而严重的氢脆问题是其在氢分离提纯应用中必须要解决的问题,合金化是一种通过改变氢溶解度进而提高金属抗氢脆性的有效方法之一。因此,本论文根据V金属典型的bcc晶体结构,在V基体加入特定含量的Pd,Mo,Al三种氢排斥元素,设计了V-Pd-Mo(Al)体系总计10种成分的渗氢合金,研究了Pd,Mo,Al合金化对V金属的晶体结构、微观组织、氢溶解、氢扩散以及机械性
家庭联产承包责任制实施以来,我国持续改革农地产权制度,经过农地确权颁证赋予农民清晰的土地承包经营权,但没有在法律上赋予农户承包土地的交易权。作为农业生产中最重要的生产要素,土地经营权没能形成有效的交易市场,规模化经营难以实现。出于扩大苹果生产的需要,苹果种植户在农地流转中以农地转入为主,规模化经营对苹果种植户实现规模效益十分重要。如何实现农业规模化经营,形成市场在农业要素配置中发挥定性作用的机制,
Pinger信号是一种带宽、脉宽均较窄且有固定重复周期的脉冲信号,是用于对水下合作目标进行定位的常用信号。本论文针对某水下合作目标定位系统对Pinger信号实时检测与估计的需求,以多核DSP芯片作为信号处理硬件平台,设计并实现了一套实时信号处理软件,该软件具有信号检测、时延估计、频率估计和目标方位估计功能。论文最终完成了实时信号处理软件调试、定位系统整机联调以及定位系统湖上试验,对本论文设计实现的
高维多目标优化问题在社会工程中已广泛应用,然而由于高维多目标优化问题的前沿特殊性,使之成为优化研究的难点问题。随着目标数量的增加,算法存在多样性与收敛性冲突加剧,选择压力缺失及多样性维护不足等问题。针对上述问题,本文旨在探索和设计具有较高搜索能力和搜索效率的匹配选择策略及环境选择策略,提出了两种高维多目标优化算法,即Ma OEA-MS和Ma OEA-ES算法,并应用于无线传感器网络低能量自适应聚簇
本论文主要是对大规模图网络数据的结构分析与表达学习进行研究。当前,多样型的大规模图网络结构在现实生活中是非常常见的,比如社交网络、引文网络、交通网、物联网、物流网、生物分子网络等等。基于这些网络结构数据产生了众多需要解决的图分析任务,例如链接预测(如社交网络上的好友推荐)、多标签分类(如引文网络上的同主题论文归类)、异常点检测(如交通网上的拥堵点检测)等等。然而传统的图论或者统计方法面对这种大规模
随着信息技术的广泛应用,很多行业的传统模式都发生了改变。企业信息技术系统快速发展,企业的各种活动越来越多的依靠各种信息系统的支撑。在这个信息技术高速发展的世界,网
阅读是我们获取信息、提高综合语言能力的重要途径,它在听、说、读、写四项技能中起着重要的作用。因此,加强阅读教学,培养学生阅读兴趣、提高学生的英语阅读成绩是大学英语阅读教学的中心任务和重要组成部分。目前,大部分大学英语教学仍采用以教师为中心、以教材为中心、以语法为中心的传统教学模式,在这种教学模式下,学生是被动的学习者,这可能会产生一系列的问题。因此,如何有效地提高学生的英语阅读水平和改进传统的英语