基于样本密度峰值的不平衡数据欠抽样方法

来源 :计算机应用 | 被引量 : 1次 | 上传用户:bluedogdog
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不平衡数据分类是数据挖掘和机器学习领域的一个重要问题,其中数据重抽样方法是影响分类准确率的一个重要因素。针对现有不平衡数据欠抽样方法不能很好地保持抽样样本与原有样本的分布一致的问题,提出一种基于样本密度峰值的不平衡数据欠抽样方法。首先,应用密度峰值聚类算法估计多数类样本聚成的不同类簇的中心区域和边界区域,进而根据样本所处类簇区域的局部密度和不同密度峰值的分布信息计算样本权重;然后,按照权重大小对多数类样本点进行欠抽样,使所抽取的多数类样本尽可能由类簇中心区域向边界区域逐步减少,在较好地反映原始数据分
其他文献
目的分析临终综合护理对肿瘤晚期患者生活质量的影响。方法选择本院于2016年1月-2017年11月间收治的50例肿瘤晚期患者为研究主体。划分为A组和B组,均是25例。A组给予临终综合
职业教育应"以社会需求为目标,以就业为导向",高职高专的英语课程模式要侧重提高学生的职场英语能力,尤其是实际应用能力,使学生在未来的工作中能够运用英语处理职业岗位上的各
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
介绍了林达绕管型水冷甲醇塔在内蒙古九鼎化工有限责任公司开车及初步运行情况。绕管型水冷甲醇塔具有温度分布均匀、结构可靠、运行稳定等特点,可用于合成、变换及硫回收等
"观念"的性质问题是洛克哲学研究领域的经典问题。要研究洛克哲学,首先就要面对这个问题。本文所做的工作不是具体回答这个问题,而是从实质内容上澄清这个问题,其到底在追问
我们不妨设想:如果张恨水编写一部1917—1949年的文学史,该是什么模样?如果国民政府在1945年组织专家编写1911—1945年的文学史,又该是什么模样?如果穿越时空对1898—1949年
阐述了醇烃化精制工艺流程;介绍醇化塔内件设计思想;总结了醇烃化工艺在河南心连心化学工业集团股份有限公司合成氨生产中的应用及效果。对生产运行中存在的问题进行了相应的