面向K最近邻分类的遗传实例选择算法

来源 :计算机应用 | 被引量 : 9次 | 上传用户:yaofj0226
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对传统的实例选择算法会误删训练集中非噪声样本、算法效率低的不足,提出了一种面向K最近邻(KNN)的遗传实例选择算法。该算法采用基于决策树和遗传算法的二阶段筛选机制,先使用决策树确定噪声样本存在的范围;再使用遗传算法在该范围内精确删除噪声样本,可有效地降低误删率并提高效率,采用基于最近邻规则的验证集选择策略,进一步提高了遗传算法实例选择的准确度;最后引进基于均方误差(MSE)的分类精度惩罚函数来计算遗传算法中个体的适应度,提高有效性和稳定性。在20个数据集上,该方法相较于基于预分类的KNN(PRKN
其他文献
电子商务应用中产生了大量用户评分数据,而这些数据中富含了用户观点和偏好信息,为了能够从这些数据中准确地推断出用户偏好,提出一种面向评分数据中用户偏好发现的隐变量模型(即
针对多用户联合感知场景问题,考虑次用户至决策中心之间有损信道的情况,提出了基于多址接入信道(MAC)的联合频谱感知算法。在系统结构和数学建模基础上,分析了传统MAC算法渐近性、中断概率等性能。在次用户平均发射功率约束下,以最大化检测概率为目标,对基于MAC算法中的发射增益进行优化;并考虑了一定服务质量情况下最小化次用户数目的问题。仿真结果表明,MAC算法能够保证良好的检测性能,以决策中心错误概率为
20世纪90年代后期产生于企业的年薪制,如今却已成为高校吸引高层次人才的普遍选择,这是高校之间人才竞争的必然结果,也是高校自身发展壮大的必然选择。为更好地吸引、稳定和激励
针对在大数据管理中,在压缩的数据上无需解压即可进行相关操作的问题,在数据服从正态分布的前提下,根据列数据存储的特点,提出了一种新的面向列存储的压缩方法——CCA。首先,通过对列数据的长度进行归类;然后,采用抽样的方法获得重复度较高的前缀;最后,使用字典编码进行压缩,提出了列索引(CI)和列实体(CR)作为数据压缩结构来降低大数据存储的空间需求,从而直接有效地在压缩数据上支持选择、投影、连接等基本操
人口生育率下降一般发生在经济充分发展之后.陕西省与全国整体水平相似,1970年以来,生育率下降是在经济落后状态下完成的.运用了相关与回归分析法定量分析了陕西省生育率下降
针对全球微波互联接入(Wi MAX)网络节能算法中因移动节点(MS)的信道质量差别引起的空闲状态而浪费能量这一不足,依据IEEE 802.16e标准第Ⅰ类节能模型给出了MS服务质量目标的平均能耗(AEC)形式化描述,并提出一种基于信道质量均衡的避免终端空闲状态虚拟突发的节能调度(IAVB)算法。该算法采用将空闲状态阈值和基于信道质量的状况选择主移动终端相结合的策略,并完善了虚拟突发的结束条件,很好
立足于云南特殊的法学专业开放教育环境,从自身学员构成特点来分析云南法学专业开放教育的功能定位,以认知教育为云南法学专业开放教育的功能定位和以学历教育和证书教育作为
社交网络数据具有一定的聚合性,即特征上相近的用户之间更容易产生某种行为。依照常规的水平切分方法,在执行这些事件的信息查询时,将会耗费大量的时间和连接损耗去依次访问多个数据库。针对此问题,提出了基于聚类分析的社交网络数据库分库策略。将社交网络主体的特征标量进行聚类,使得聚集程度高的主体尽量分割到一个或尽可能少的几个分库中去,从而提高事件的查询效率,并在此基础上兼顾负载均衡与大数据迁移等问题。实验结果
针对传统算法如支持向量机(SVM)、随机森林不能充分利用卫星图像的纹理特征和光学参数的问题,提出一种基于多维多粒度级联森林(M-gc Forest)的方法进行准确又快速的云雪识别。首先,根据单光谱和多光谱图像之间的差异性,选择SVM、随机森林、卷积神经网络(CNN)、多粒度级联森林(gc Forest)在单光谱卫星图像上进行云雪识别;然后,通过定量分析各算法在单光谱图像上的性能,选择CNN和M-g