论文部分内容阅读
量化投资历经40余年的发展,因其可持续获得超额收益的优势得到广泛流行。如今,大数据时代计算机技术的发展势不可挡,随着机器学习算法的不断迭代更新以及优化,投资领域的相关研究也必须与时俱进,量化投资策略更是层出不穷、日新月异。与此同时,正是机器学习、人工智能以及数十亿高频数据信号的可用性方面的最新进展,使得模型选择成为一项具有挑战性和紧迫性的需求。许多投资公司和基金经理依赖于回测(即基于历史市场数据的性能模拟)来选择投资策略和分配资本。金融发现通常涉及到识别一种低信噪比的现象,通常的做法是使用计算能力校准投资策略的参数,以使其绩效最大化。但是,低信噪比很容易导致这种校准结果是基于过去的噪声选择参数,而不是基于未来的信号,这样就发生了回测过拟合。回测过拟合是选择的一种投资策略在回测期间表现出色,但在实践中却表现不佳的现象。对于回测过拟合的评估并不是一件容易的事,相关方向的研究也甚是匮乏。David H.Bailey和Marcos L’opez de Prado等学者关注到了这一问题并进行了相关研究,在2017年给出了关于回测过拟合的量化定义,同时提出了一种估计回测过拟合概率的方法——组合对称交叉验证(CSCV),并通过蒙特卡洛方法和极值理论均验证了 CSCV方法估计的准确度,以及通过在不同回测过拟合程度情况下(完全过拟合、高度过拟合以及低过拟合)的实例分析验证了 CSCV方法的有效性[1]。量化选股是量化投资领域的重要组成部分,将机器学习算法应用于量化选股的相关研究层出不穷。在文献研究的基础上,本文选取了应用最为广泛的三种算法——SVM、RF以及XGBoost算法,构建了选股模型,并采用马科维茨的均值方差方法对股票池进行投资组合优化,从而形成了完整的投资策略。本文选用沪深300的300只成分股作为研究的股票池,实证发现三种策略在样本外推期均有超越沪深300指数的表现。本文引入了 David H.Bailey等对回测过拟合以及回测过拟合概率的量化定义,基于CSCV方法对构建的三种量化投资策略的回测过拟合概率进行估计。在策略回测评价阶段,在通常的评价角度基础上从回测过拟合发生水平这一新的角度对投资策略进行综合回测评价,给出了一种对于流行的看似表现优异的策略是否具有在现实投资中获取超额收益能力的评价方法。研究发现虽然在回测期间基于“XGBoost-MV”的投资策略相较于另两个策略有更出色的表现,但它的回测过拟合概率高达57.1%,我们有理由判断该策略发生了回测过拟合,这意味着策略的回测表现不具备真实性,不能断然应用于实际投资中;而基于“SVM-MV”和“RF-MV”的投资策略在回测期间的收益率、夏普比率等各项指标表现虽不如“XGBoost-MV”,但其回测过拟合概率分别为11.9%和18.2%,均为低风险过拟合策略,也就是说这两个策略的回测结果更具真实性。基于不同策略的真实性对比评价,我们可以考虑不再选择回测表现最优的策略,而是选择一定过拟合概率阈值下表现最佳的策略。对于性能表现较优的策略,增加了评判视角,有助于研究人员去发现更真实的策略表现。这为现实世界的投资者提供了策略选择的新思考,具有重要的现实意义和应用价值。与此同时,本文也为今后的研究提供了新的研究视角和思路,比如可以研究可信度更高的策略选择方法,那么在采用相同的策略表现性能统计量(例如:夏普比率)的情况下,当性能统计量表现差异在一定范围内时,我们就可以采取这样回测可信度更高的策略。