基于数据集相似性的分类算法自动选择研究

来源 :深圳大学 | 被引量 : 1次 | 上传用户:wuzhiqing1984
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类是机器学习领域重要的任务之一.不同的分类算法对不同类型的数据集存在偏好,故为新数据集选择合适的分类算法充满挑战.一种可行的方法是分类算法自动选择,即根据数据集之间的相似性,为新的数据集推荐最优的分类器.分类器自动选择中最关键的任务是提取数据集特征,因为其决定了数据集相似性的度量,而数据集往往有不同的样本数、维数、类别数以及属性类型.已有的数据集特征从某些角度刻画了数据集的相似性,如统计和几何,但它们与分类器的性能没有太大的联系,从而导致推荐性能欠佳.此外,这些特征也缺乏理论支持.综上所述,本学位论文拟从提取有效的数据集特征和理论分析两方面研究分类器自动选择问题.本学位论文共有四章.第一章介绍分类算法自动选择的研究背景和相关工作;第二章和第三章为本学位论文的主要贡献;第四章是本论文的总结与展望.第二章提出了欧几里得几何结构保持特征来解决已有特征刻画不准确的问题.该特征联合了数据集的内积矩阵以及类别标签,因而可以从几何上同时刻画数据点分布和决策边界.我们认为,分类任务的难度主要由数据集的几何分布以及决策边界形状所共同决定.数据集特征相似性的计算是一个图匹配问题,根据问题的特殊性,我们采用了一种新的方法来求解,比已有的图匹配算法更高效.此外,我们从理论上证明了该特征的相似性与分类器性能相似性的关系,从而保证了我们算法的合理性.直接将该特征推广到核空间中,我们还可以度量数据集的局部几何结构以及非线性结构.最后,我们采用了人工数据集和真实世界的数据集进行模拟实验,该特征的性能优于对比的特征.第三章提出了一种度量分类问题复杂度(简称分类复杂度)的数据集特征来解决已有特征刻画不准确和计算复杂度高的问题.分类复杂度是对分类任务难易程度的一种度量.我们认为,若测得的复杂度与分类器性能有联系,那么具有相同复杂度的分类问题就应该有相同的最优分类器.首先,我们提出了五个几何和统计指标来刻画分类复杂度,然后它们被联合起来作为数据集特征.我们从理论上证明了其中的两个指标和一些分类器的泛化误差上界有联系,从而从理论上保证了特征的准确性.计算复杂度低是这个特征的另一个优点,与已有特征相比,我们的特征可以大大的节省时间,从而在实际应用中可以提升效率.此外,我们还可以将此特征推广到任意的核空间中去刻画数据的非线性结构.最后,我们也采用了人工数据集和真实世界的数据集进行模拟实验,该特征的性能在各方面都优于对比的已有的特征.
其他文献
目的调查脑肿瘤患者主要照顾者的照顾负担现况,并分析其影响因素。方法采用一般资料调查表、照顾负担量表、抑郁自评量表、医学应对问卷对100名脑肿瘤患者主要照顾者进行调查
目的观察小脑顶核电刺激(FNS)治疗对卒中后认知障碍患者磁共振质子波谱的影响,评价小脑顶核电刺激治疗对卒中后认知障碍的疗效。方法选择脑卒中后出现认知障碍的患者68例,随
目的:本课题在导师指导下,通过随机对照试验研究,观察芍药汤加味治疗腹泻型肠易激综合征(脾胃湿热证)的临床疗效及其是否安全,来进一步证明中医辨证施治体系的优越性,为临床
目的探讨标准化疗养护理方案对空勤人员生活质量的干预效果。方法将125例空勤人员按数字表法随机分为研究组和对照组,对照组采用传统疗养模式,研究组采用标准化疗养护理方案,
随着市场竞争激烈程度不断加深,营销观念也发生了新的变化,关系营销已经成为企业重要的营销方式和战略方针。目前我国很多企业依旧秉承传统的营销理念,仍未妥善处理与消费者
从传统结晶干燥类原料药生产设备与技术所暴露的问题入手,阐述了原料药结晶干燥整体工艺设备方案,也叙述了其相应设备的特点。
存量规划背景下的城市街道更加注重人的感受与体验,兼具交通功能与社会功能。街道活力作为街道社会属性的表征,通过其的提升作为老城复兴的重要切入点,以线带面来推动老城整
目的探讨影响慢性重型乙型肝炎(CSHB)患者预后的因素,以指导临床实践。方法收集384例CSHB住院患者的相关资料,将患者分为好转组和死亡组,分析2组患者一般人口学资料、临床资料
目的总结关节腔注射透明质酸钠(阿尔治)治疗膝关节骨关节炎的经验.方法参照1995年美国风湿病协会制定的OA标准,选择2011年1月至2012年1月我院收治的老年膝关节骨性关节炎患者
<正> 将我国现行十年制学校初中数学的内容与日本最新的初中数学大纲进行比较,可以发现有以下差别:1.在代数内容方面,我国的讲授起点高日于本,内容比日本多,如我国是把整数性