论文部分内容阅读
伴随着微型计算机进入千家万户,互联网应用有了飞跃式发展,其规模不断扩展并深入至文化、娱乐、交通等各个领域。怎样对如此庞大的数据系统进行有效管理,使其运行稳定、调度合理是目前人们面临的重要问题。作为解决问题的基础,对网络流量进行智能化分析,通过数据挖掘获得更多信息和依据逐渐成为研究的热点。诞生于上世纪90年代中期的支持向量机算法,凭借其坚实的统计学理论基础,现已成功应用于图像处理、文本分类、生物信息处理等分类及回归算法研究。文中采用最小二乘支持向量机作为学习方法的基础,引入集成学习的思想,目的在于利用结构比较简单的基学习器达到较好的学习效果。在AdaBoost集成学习算法中,对于上一轮学习中被基学习器误分的样本,算法赋予了较高的权重使得它们有较大的可能再次进入样本集中重新学习。用这种方法产生一定数量的弱学习器之后,通过训练误差筛选出能力较出色的学习器。可见,对产生误差较大的区域进行重复学习的作用是积极且明显的。本文提出了一种在普通学习基础上进一步重点学习的策略:(1)使用最小二乘支持向量机回归算法对样本初步训练:实验表明,单一的LS-SVR学习器学习能力出色,对流量曲线的回归比较准确,能够体现出目标走势,并且学习时间较短,不足之处在于细节上失真较大。由此,采用单一的LS-SVR学习器作为学习策略的基础是合适的,并且具有提升空间。(2)利用LS-SVM二分类器对样本误差集进行分类,可确定误差较高且较为密集的样本区域,选取学习过程中的“重点”。使用二分类器对学习结果与目标的误差进行分类,是使本文学习方法整体化、过程化的关键环节。(3)提出一种基于误差的加权投票算法对其进行集成学习,将再学习的结果替换至对应位置。实验结果表明,本文这种包含概括学习,重点划分,重点再学习三部分的学习策略效果优良,结合了单一学习器与集成学习的优点,在训练速度与精度之间取得了平衡。