最近邻方法在填充和分类中应用的新技术

被引量 : 0次 | 上传用户:qq1123388099
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今互联网时代,海量信息处理已成为我国经济建设进程中的一个重大需求。最近邻方法是海量信息处理中最重要的理论与技术之一,运用已知的最邻近点估计或逼近问题的解,为海量信息计算与服务提供了简单、易理解、有效的理论和技术。本论文研究最近邻方法在缺失值填充与分类中应用的新技术和算法。首先,从缺失值填充和数据分类的应用角度对k最近邻算法进行研究,详细地阐述了k最近邻算法的基本原理,分析它的优缺点和一些常用的改进方法。在此基础上,本论文以获取更高的填充(分类)准确率为主要目标,针对k最近邻算法的某些缺点提出新的改进策略,并从理论和实验两方面验证策略的有效性。一方面,本论文研究最近邻填充的新理论与算法。针对k最近邻填充算法(kNNI)在缺失数据的k个最近邻的选择上可能存在偏好,提出一种新的缺失填充算法:象限近邻填充算法QENNI(是一种壳近邻填充算法),它仅仅使用缺失数据象限方向的最近邻来填充该缺失值,避免了kNNI中选取的k个最近邻点有偏好这一情况。进一步,本论文采用三种可能的加权方法对壳近邻填充算法(SNI)[1,2]进行分析,通过实验总结出壳近邻填充中近邻数据重复选择有利于提高填充效果,而基于频率与距离加权方式的壳近邻填充算法fdwSNI具有最好的填充效果这一结论。关于缺失值填充,填充算法固然重要,但好的评价方式无疑能为算法的选择提供有效的指导。通过具体的实例分析,本论文指出常用的填充效果指标RMSE容易偏向严重的填充误差,并提出一种新的goodness评价方式。即使存在个别严重的填充误差,goodness仍然能得出理想的结论。另一方面,本论文建立一个壳近邻分类算法SNC,克服了kNN最近邻选择上可能存在偏好这一问题,该算法对距离度量不敏感,在大数据集上具有更好的分类效果。另外,在实际的数据挖掘应用中,面对的数据通常是质量差的或者不完全的,开发噪声鲁棒性较好的挖掘算法是一个具有实际应用价值的挑战性工作。噪声消除常常是困难且昻贵的,并且减少历史数据来换取信息的完备,会导致可分析的数据容量大量减少,造成资源的浪费,并丢弃了大量隐藏在这些数据中的信息。kNN是基于距离的局部最优的算法,忽略了部分或整体上的数据分布可能对分类结果的影响,会导致分类器对训练集中噪声数据的敏感性增大。本论文提出综合考虑k近邻、簇和训练集中的数据分布特性,建立一个新的分类算法,称为NCT,由于充分利用了局部、部分和全局三方面的数据资源,该算法具有良好的噪声鲁棒性。实验结果表明,NCT算法不仅具有更好的分类效果,而且在噪声环境中具有良好的鲁棒性。在不含噪声的环境中,NCT算法稍微好于kNN;而在含噪声的环境中,NCT算法的分类准确率明显高于kNN算法,且噪声率越大,这种优势越显著。最后,对NCT算法引进的聚类信息和全局信息做其他形式的组合变型,通过实验证明在含噪声的环境中,无论用哪种组合方式加入新信息都有利于提高kNN算法的分类效果,而线性插值组合方式的NCT算法提高分类准确率的幅度最大。简言之,本论文的主要创新点可以概述如下:提出一种象限近邻填充算法QENNI,克服kNNI算法缺失数据的最近邻选择可能存在偏好;提出一种新的goodness缺失值填充评价方式,当个别数据存在严重填充误差时,goodness评价方式优于RMSE;构造一种新型的壳近邻分类算法SNC,克服了kNN算法最近邻选择上可能存在偏好这一问题,该算法对距离度量不敏感,在大数据集上具有更好分类效果;提出一种综合考虑k近邻、簇和训练集中的数据分布特性的NCT分类算法,有效增强对噪声的鲁棒性。为证明其有效性,本论文提出的算法均在真实数据集上进行大量的实验。实验结果表明,本论文提出的QENNI、SNC和NCT算法均优于k最近邻算法,特别NCT算法在噪声环境中分类效果的优势显著。
其他文献
政府会计制度改革是我国会计史上一次重要的里程碑,将对我国会计制度的统一和规范产生深远的影响。文章深入探析了新制度执行对我国高校财务管理工作的影响,并结合高校管理工
欧洲联盟自1993年正式成立以来,一直致力于推进欧洲一体化进程。到目前,欧盟已经建立起了一个共同的市场,采用一个共同的商务策略,一个共同的农业政策,一个共同的防务政策,尤
新优质学校教师专业素养的提升迫在眉睫。文章以玛克斯·奥勒留的《沉思录》阅读有感为出发点,尝试从哲学视角对教育信仰、育人理念、团队合作等教学元素进行分析,以期为
目的:探讨心理治疗对支气管肺癌患者化疗依从性的影响。方法:本院收治的支气管肺癌患者80例,随机分为对照组和观察组。对照组进行化疗的支气管肺癌患者采用常规专业护理措施
现代汉语中有这样一种句法结构如“擦亮玻璃、哭红了眼睛”等,我们将其归类为“V+A单+O”结构。本文着眼于现代汉语“V+A单+O”结构进行研究,对该结构进行细致地描写和分析,
语义排歧(Word Sense Disambiguation)一直是自然语言处理(Natural Language Processing)和语义学研究领域一个非常重要的课题,几乎覆盖了各种自然语言处理系统,其中包括信息
经济增长意味着财富的积累和福利的改善,是人类追求的共同目标。因而,是什么最终促进了经济增长和怎样实现持续稳定的经济增长,一直是理论与实证研究的重要课题。古典经济学
当前我国基础建设呈现跨越式发展,对桥梁桩基础的承载力和沉降都提出了极高的要求。多节旋挖挤扩灌注桩(DX桩)具有多层分散承载的特点,以及承载力高和沉降小的优点,为了促进
可控柔性密封主要用于润滑性较差、低粘度、高杂质含量的流体介质密封中,其目的是防止介质泄漏,从而节约能源、减小污染、保护环境。论文首先对柔性密封的发展历史、研究现状
本文以《蒙古秘史》语言中尚未曾深入研究的副词为研究对象,通过统计数据、描写、对比等研究方法,尽可能澄清《蒙古秘史》副词的应用状况,并揭示其发展规律。本文包括序文和