论文部分内容阅读
股票市场作为金融市场最重要、最复杂的组成部分,兼具着反映整体市场的变化趋势和反映国民经济总体发展水平的功能,同时为投资者投资决策提供重要的参考价值,是灵敏反映市场社会、政治、经济变化情况的晴雨表。然而,股票市场在多重因素的影响下,市场指数价格序列时常出现异常波动,使得传统的分析方法很难预测股价的走势。随着机器学习方法在分类和预测问题上凸显越来越大的优势,本文尝试将机器学习应用于股指预测问题上。
首先,本文简单介绍了三种机器学习方法——支持向量机(SVM)、随机森林(RF)和极端梯度提升树(XGBoost)算法的理论知识。接着,利用这三个机器学习模型构建了用以预测股票指数价格涨跌的模型。考虑到机器学习在处理大数据上的优势,本文选取了沪深300指数5分钟高频交易的行情数据作为研究对象,以其开盘价、收盘价、最高价、最低价、成交量和成交额6个变量作为SVM、RF、XGBoost三个机器学习模型的特征输入,下一五分钟收盘价的变动方向作为输出特征,建立了股指涨跌预测模型。并采用常见的准确率指标、ROC曲线和AUC统计量作为各机器学习预测模型的性能度量指标。
其次,考虑中国股市各方面条件尚未成熟,股价受到的干扰因素较多,股价波动大,噪声较多,本文提出了基于高斯降噪的机器学习预测模型,在机器学习预测前先对原始数据进行了高斯降噪处理,将股票价格时间序列中的一些异常信号去除,减少了干扰项,然后将经降噪处理的样本数据作为机器学习模型的特征输入,输出特征保持不变,建立了更具较强分类性能的预测模型。
通过对比分析降噪前后三种机器学习算法的预测性能发现,降噪后各机器学习方法的分类性能有了显著的提升。具体来看,降噪后支持向量机的预测准确率、AUC值分别为62.80%、0.620,比降噪前分别提高了22.92%、21.33%;极端梯度提升树的准确率、AUC值分别为70.85%、0.705,比降噪前分别提高了35.67%、35.06%;随机森林的预测准确率近75%,AUC值为0.745,比降噪前分别提高了约46%、45.22%。各模型的预测准确率相比降噪前均更高,即预测效果更好,分类性能更优,充分验证了降噪后的三种机器学习模型在股指涨跌预测问题上的有效性。不仅如此,降噪后随机森林预测的准确率相对支持向量机提高了19.31%,相对极端梯度提升树提高了5.76%,降噪后的随机森林预测模型在股指涨跌预测中表现出了十分显著的分类性能优势。
最后,本文基于自身研究的不足之处提出了今后的研究方向:将更多影响股票价格的因素纳入机器学习的输入特征中,继续深入研究;更加深入机器学习的理论知识,使模型发挥其最大的优势。
首先,本文简单介绍了三种机器学习方法——支持向量机(SVM)、随机森林(RF)和极端梯度提升树(XGBoost)算法的理论知识。接着,利用这三个机器学习模型构建了用以预测股票指数价格涨跌的模型。考虑到机器学习在处理大数据上的优势,本文选取了沪深300指数5分钟高频交易的行情数据作为研究对象,以其开盘价、收盘价、最高价、最低价、成交量和成交额6个变量作为SVM、RF、XGBoost三个机器学习模型的特征输入,下一五分钟收盘价的变动方向作为输出特征,建立了股指涨跌预测模型。并采用常见的准确率指标、ROC曲线和AUC统计量作为各机器学习预测模型的性能度量指标。
其次,考虑中国股市各方面条件尚未成熟,股价受到的干扰因素较多,股价波动大,噪声较多,本文提出了基于高斯降噪的机器学习预测模型,在机器学习预测前先对原始数据进行了高斯降噪处理,将股票价格时间序列中的一些异常信号去除,减少了干扰项,然后将经降噪处理的样本数据作为机器学习模型的特征输入,输出特征保持不变,建立了更具较强分类性能的预测模型。
通过对比分析降噪前后三种机器学习算法的预测性能发现,降噪后各机器学习方法的分类性能有了显著的提升。具体来看,降噪后支持向量机的预测准确率、AUC值分别为62.80%、0.620,比降噪前分别提高了22.92%、21.33%;极端梯度提升树的准确率、AUC值分别为70.85%、0.705,比降噪前分别提高了35.67%、35.06%;随机森林的预测准确率近75%,AUC值为0.745,比降噪前分别提高了约46%、45.22%。各模型的预测准确率相比降噪前均更高,即预测效果更好,分类性能更优,充分验证了降噪后的三种机器学习模型在股指涨跌预测问题上的有效性。不仅如此,降噪后随机森林预测的准确率相对支持向量机提高了19.31%,相对极端梯度提升树提高了5.76%,降噪后的随机森林预测模型在股指涨跌预测中表现出了十分显著的分类性能优势。
最后,本文基于自身研究的不足之处提出了今后的研究方向:将更多影响股票价格的因素纳入机器学习的输入特征中,继续深入研究;更加深入机器学习的理论知识,使模型发挥其最大的优势。