论文部分内容阅读
传染病一旦爆发会给人类带来巨大的损失,是人类面临的一项重大挑战和威胁,对传染病爆发的趋势进行预测,可以提早的做好预警工作,减少损失,具有重大的意义。随着机器学习研究的不断深入,尤其是支持向量机(SVM)理论的提出,使得很多难以预测的问题得到更好的解决。由于传染病数据大都具有小样本、不规则等非线性特征,考虑到支持向量机针对此类数据的处理具有特有优势,本文将支持向量机回归(SVR)引入到预测模型中,同时考虑到传染病独具的周期时序性,本文还使用了差分自回归移动平均模型(ARIMA),并将其与SVR相结合,取得了很好的预测效果。首先,支持向量机理论中最为关键的技术就是核函数,核函数巧妙实现了低维非线性模型到高维线性模型的转化,并且避免了维数灾难。为了取得更好的预测效果,本文使用混合核函数,它是全局核函数与局部核函数的线性组合,具有更强的学习能力和泛化能力。在综合分析支持向量机理论的几何意义后,提出一种基于特征距离的组合系数求解方法,该方法利用支持向量回归与支持向量机分类的相互转化关系,把回归问题转化为分类,根据分类中不同类别样本之间的距离越大越好的原则,将组合系数的求解问题转化为对目标函数的优化问题,并通过化简计算,得到一个二次函数,实现对系数的求解。实验证明该方法可以直接通过公式计算组合系数,与传统的交叉验证法和PSO优化算法相比,在时间效率上得到了很大的提高。其次,考虑到传染病具有时序性和周期性,而差分自回归移动平均模型在处理这方面问题具有一定的优势,本文借助组合模型的思想,将二者相结合,提出ARIMA-SVR预测模型,在预测时不仅考虑到气象因素对传染病的影响,也考虑到其自身的周期性,进一步提高了预测的准确性和鲁棒性。最后,选择肺结核的发病率作为预测目标,在研究了中医五运六气理论相关知识后,提出一种方法将运气因子量化并加入到输入特征中,同时采用主成分分析法对气象数据进行降维处理,分别使用SVR模型、ARIMA模型和二者的组合ARIMA-SVR模型对传染病的发病率进行预测,实验结果表明,在使用SVR模型时,基于特征距离的组合系数求解方法具有高效性,使用SVR模型和ARIMA模型的预测相对误差分别在10%和15%左右,而组合模型的使用可以将相对误差控制在5%左右,证明了组合模型的有效性。