论文部分内容阅读
随着人工智能、大数据技术的快速发展,数据挖掘中的机器学习算法、深度学习算法在金融领域中的应用逐渐兴起,虽然数据挖掘方法中的传统统计方法在处理常规数据时表现尚可,但是对于处理海量非正态、非平稳、非线性和高信噪比的金融时间序列数据有一定的局限性。尤其是金融时间序列蕴含的规律时效性很强且迭代频率很高,建立在苛刻的假设条件下的传统模型在处理海量复杂的、动态的金融序列时显得捉襟见肘,而在获得新数据后,运用数据挖掘算法中的机器学习算法和深度学习算法,可快速适应环境并挖掘出有价值的信息,因此在金融时间序列研究中结合机器学习算法、深度学习算法进行探索具有重要实践意义。本文使用传统的时间序列方法、机器学习和深度学习算法,对我国股票市场整体涨幅分级序列进行研究,从序列中挖掘出股市运行规律,并开发出涨跌熵(advance-decline entropy,ADE)指数,这对于量化股市涨跌的不确定度、把握股市情绪以及指导投资决策具有重要的理论和现实意义。本文探索出适用于中国股市不同涨跌序列的预测模型,在量化择时、规避投资风险以及未来投资决策方面都具有重要的参考价值。本文使用多种时间序列方法研究中国股市的运行规律,并使用三种不同类型数据挖掘算法对中国股市涨跌序列进行预测。在进行实证研究之前,首先获取到2017年至2019年中国股票市场每个交易日所有股票的交易数据,对所有样本数据依据涨幅进行分级处理得到相应的时间序列,计算出量化市场情绪和不确定度的涨跌熵(ADE)指数,再对细分的五类涨跌序列以及对应的涨跌熵序列进行实证研究。本文使用传统的时间序列方法对中国股市涨跌序列规律进行挖掘,日历效应的实证研究中使用自回归条件异方差(GARCH)模型对股市涨跌序列和上证指数进行月份效应和星期效应分析,使用谱分析方法对涨跌序列进行周期性分析。对中国股市不同涨幅序列以及涨跌熵序列进行预测的实证研究中,分别使用时间序列方法中的自回归移动平均(ARMA)模型、机器学习算法中的支持向量回归(SVR)算法、深度学习中的长短记忆网络(LSTM)算法对各涨跌序列进行预测。最后,本文综合分析上述方法获得的实证结果,发现中国股市运行具有一定的规律,使用数据挖掘算法中的机器学习算法和深度学习算法对中国股市涨跌序列进行预测具有相对较好的效果。研究发现涨跌熵指数能够反映股市不确定性,涨跌熵序列在月份效应方面与上证指数和涨停序列正好相对应,且涨跌熵序列与分级序列中多数序列主周期和次周期都一致,这进一步印证了涨跌熵指数能量化股市的不确定度。近三年中国股市存在显著的二月效应,其中上证指数和涨停序列都存在显著的正二月效应,涨跌熵序列则存在显著的负二月效应,仅涨停序列和和上证指数具有星期效应。各涨幅序列中所有涨幅大于-5%的序列和涨跌熵序列主周期都是一个月,而所有跌幅大于5%序列主周期比所有涨幅大于-5%序列主周期短二十天左右。通过对三种不同类型数据挖掘算法预测股市涨跌序列的预测结果综合分析,发现机器学习算法和深度学习算法对各涨幅序列拟合效果比传统时间序列模型更好,使用深度学习算法中的LSTM对于我国股票市场涨幅预测效果最好。