论文部分内容阅读
互联网就像是一个巨大的数据仓库,里面包含了文本、图像以及视频等各种类型的数据,这些数据由于来源的不同呈现出了异质与非结构化的特点。为了对这些数据进行有效的管理与存储,便于人们快速地从中找到有用的信息,数据挖掘作为一种解决方法迅速成为了一个研究热点。支持向量机是数据挖掘领域常用的一种机器学习算法,它凭借着有效防止过拟合的特性在分类领域得到了广泛应用。针对日常分类问题中常见的多分类问题,支持向量机产生了多种不同的组合式多分类算法,本文针对其中两种组合式多分类结构进行深入研究与分析,提出了两种改进的支持向量机多类分类算法,主要内容如下:DAGFSVM)算法。针对有向无环图多分类问题中经常会出现噪音点的情况,设定了一个模糊间隔函数,利用该模糊间隔函数来判断一个样本是否真实属于此类别,如果不是,就赋予比较低的模糊值,削弱其对于最终超平面的影响。另外,再设定一个分离度函数来衡量各个二类分类器的准度,将那些成功率高的放置到根节点旁边,从而尽量保证有向无环图结构的准确率。2、提出了一个基于模糊间隔的自适应二叉树支持向量机多分类(Binary Tree Support vector machines based on fuzzy interval,BTFSVM)算法。针对二叉树多分类问题中经常会出现误差累积的情况,首先设定一个类间距离函数来衡量类别之间的关系,将相近的类别聚在一起,从而使得数据依据自身的特性来构造偏二叉树或者近似完全二叉树,实现两种结构的自适应;另外,采用模糊间隔函数与辅助惩罚因子来有效的平衡二叉树层次结构分类中不均衡分布对于最终分类结果的不利影响,提升每个单体二分类器的性能,从而进一步提升整体模型的准确率。3、将本文提出的两种支持向量机多分类算法在不同的数据集上进行比较,总结出各自的优劣势;然后基于这两种算法的优劣势,构建一个简易的基金评级系统。基金评级系统的数据由爬虫从新浪的基金数据中心爬取,爬取的数据各特征之间通过标准化来消除取值范围对于精度的影响,然后依据本文提出的两种不同的多分类算法分别进行训练,得到快速以及精准两种不同的基金评价模型,最终再依据规模设定单一评价以及批量评价两个接口,从而对不同规模的基金数据实现简单的评级操作。