论文部分内容阅读
一直以来,多因子选股模型都是量化投资中很重要的研究领域。无论是在新的因子构造方面还是在利用因子预测收益的方法选择方面,量化研究工作者都投入了无限的精力。随着数学、计算机科学、统计等方法的发展,多因子选股的方法也变得更加多样化。本文在传统多因子选股模型的基础上,融入机器学习算法——XGBoost算法,以,以期为多因子选股的方法做出有意义的改进和创新。
本文根据经济逻辑和市场分析师的研究经验,并考虑数据的可获得性初步甄选出从理论上对股票收益具有较强解释性的七个大类31个候选因子,这些因子大部分都是反映公司基本面的财务、经营等因子。然后以沪深300的成分股从2010年1月到2017年11月间的31个因子数据进行实证研究。首先对31个因子分别做了单因子有效性测试,并通过大类分析剔除了冗余的因子,最后得到5个有效线性因子:pe_ttm(市盈率PE(TTM))、yoy_or(营收同比增长率)、roe_ttm2(ROE(TTM))、pct_chg_per(区间涨跌幅)、pq_avgturn2(区间日均换手率)。
基于这5个有效因子构建了多因子选股模型,在回测期间获得了相对于基准沪深300的超额收益,年化阿尔法为3.5%。为了挖掘未通过有效性测试的25个因子中对股票收益率预测有用的信息,在多因子选股模型的基础之上,使用XGBoost算法以这25个因子为特征变量对选股结果做进一步的优化。使用线性模型同非线性模型一起对所有给定因子进行有效信息的挖掘建立的多层次选股模型,在回测期间获得了相对于多因子选股模型和基准沪深300的超额收益率,相对于沪深300的年化阿尔法为5.3%,夏普比率为0.65。和多因子选股模型的结果相比,在收益波动率从26.1%小幅下降到25.7%的情况下,且相对于沪深300的年化阿尔法从3.5%上升到5.3%。可见,合理的利用非线性模型可以从非线性因子中挖掘出对股票收益预测的有效信息,进而可以优化多因子选股模型的选股效果来获得更多的超额收益。
本文根据经济逻辑和市场分析师的研究经验,并考虑数据的可获得性初步甄选出从理论上对股票收益具有较强解释性的七个大类31个候选因子,这些因子大部分都是反映公司基本面的财务、经营等因子。然后以沪深300的成分股从2010年1月到2017年11月间的31个因子数据进行实证研究。首先对31个因子分别做了单因子有效性测试,并通过大类分析剔除了冗余的因子,最后得到5个有效线性因子:pe_ttm(市盈率PE(TTM))、yoy_or(营收同比增长率)、roe_ttm2(ROE(TTM))、pct_chg_per(区间涨跌幅)、pq_avgturn2(区间日均换手率)。
基于这5个有效因子构建了多因子选股模型,在回测期间获得了相对于基准沪深300的超额收益,年化阿尔法为3.5%。为了挖掘未通过有效性测试的25个因子中对股票收益率预测有用的信息,在多因子选股模型的基础之上,使用XGBoost算法以这25个因子为特征变量对选股结果做进一步的优化。使用线性模型同非线性模型一起对所有给定因子进行有效信息的挖掘建立的多层次选股模型,在回测期间获得了相对于多因子选股模型和基准沪深300的超额收益率,相对于沪深300的年化阿尔法为5.3%,夏普比率为0.65。和多因子选股模型的结果相比,在收益波动率从26.1%小幅下降到25.7%的情况下,且相对于沪深300的年化阿尔法从3.5%上升到5.3%。可见,合理的利用非线性模型可以从非线性因子中挖掘出对股票收益预测的有效信息,进而可以优化多因子选股模型的选股效果来获得更多的超额收益。