基于XGBoost算法优化的因子选股模型

来源 :西南财经大学 | 被引量 : 0次 | 上传用户:fy_laile
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
一直以来,多因子选股模型都是量化投资中很重要的研究领域。无论是在新的因子构造方面还是在利用因子预测收益的方法选择方面,量化研究工作者都投入了无限的精力。随着数学、计算机科学、统计等方法的发展,多因子选股的方法也变得更加多样化。本文在传统多因子选股模型的基础上,融入机器学习算法——XGBoost算法,以,以期为多因子选股的方法做出有意义的改进和创新。
  本文根据经济逻辑和市场分析师的研究经验,并考虑数据的可获得性初步甄选出从理论上对股票收益具有较强解释性的七个大类31个候选因子,这些因子大部分都是反映公司基本面的财务、经营等因子。然后以沪深300的成分股从2010年1月到2017年11月间的31个因子数据进行实证研究。首先对31个因子分别做了单因子有效性测试,并通过大类分析剔除了冗余的因子,最后得到5个有效线性因子:pe_ttm(市盈率PE(TTM))、yoy_or(营收同比增长率)、roe_ttm2(ROE(TTM))、pct_chg_per(区间涨跌幅)、pq_avgturn2(区间日均换手率)。
  基于这5个有效因子构建了多因子选股模型,在回测期间获得了相对于基准沪深300的超额收益,年化阿尔法为3.5%。为了挖掘未通过有效性测试的25个因子中对股票收益率预测有用的信息,在多因子选股模型的基础之上,使用XGBoost算法以这25个因子为特征变量对选股结果做进一步的优化。使用线性模型同非线性模型一起对所有给定因子进行有效信息的挖掘建立的多层次选股模型,在回测期间获得了相对于多因子选股模型和基准沪深300的超额收益率,相对于沪深300的年化阿尔法为5.3%,夏普比率为0.65。和多因子选股模型的结果相比,在收益波动率从26.1%小幅下降到25.7%的情况下,且相对于沪深300的年化阿尔法从3.5%上升到5.3%。可见,合理的利用非线性模型可以从非线性因子中挖掘出对股票收益预测的有效信息,进而可以优化多因子选股模型的选股效果来获得更多的超额收益。
其他文献
近年来,随着信息技术和金融工具的不断发展,采用信息量更为丰富、信息损失更少的金融高频数据日益受到关注,通过其研究市场间的结构关系日渐成为对于金融市场结构关系的重点。相比于高频金融数据,低频金融数据由于其采集频率的限制,造成了一定的信息损失,在此基础上对于市场微观结构的研究结论通常具有局限性。高频金融数据通过更高的采集频率,能够捕获更多的金融市场微观结构信息。在金融市场研究中,是否能准确描述收益率的
学位
金融资源是技术创新的决定性因素之一,金融与科技的紧密结合对促进国家产业转型、经济增长具有重要意义。关于金融发展与技术创新的既有研究中,对金融发展的关注点历经“金融规模与数量——金融结构——金融功能与效率”嬗变之路,而金融发展的质量与效率尚未被系统地纳入技术创新影响的研究范式。文章正是基于当前理论研究与现实背景展开,探讨金融“质”与“量”的发展对技术创新的影响机制。  文章在对金融发展及技术创新等变
学位
在金融数量与金融时间序列分析中,经常会遇到大量的非负值金融时间序列。处理非负值变量的传统常用手段包括忽略非负性和对非负值过程取对数两种方法,但通常会导致扰动项的分布设定苛刻和有限样本估计受较大影响的不良后果。为了克服这些困难,Engle(2002)在《NewFrontiersforARCHModels》一文中对几十年以来ARCH类模型、ACD模型的发展等情况做了详细阐述,并提出了一种适合于非负值金
近年来,我国的债券市场得到了长足的发展,债券的品种、发行规模以及与数量都在以极高的速度增长,特别是公司债券,自2007年首次发行以来,迅猛增长,2014年及以后尤为明显,给我国的金融市场增添了新的活力因素;在公司债迅速发展的同时,风险也在不断加剧,2014年3月,“11超日债”实质违约,打破了我国债券市场刚性兑付的神话,违约事件开始频繁发生,截止2017年12月末,我国已经有111支信用债券发生违
学位
股票市场作为经济的“晴雨表”,其容易受到多个方面的影响。个股的价格波动除了受宏观市场和自身经营状况影响以外,也会受到其他股票的影响,表现为股票市场之间相互牵制又相互促进。可以将股票市场抽象为每个股票节点和基于股票之间相关关系为连边的网络结构图来对整个股票市场内部影响进行分析。  复杂网络作为一种对现实世界描述的新思路,用来刻画不同的个体之间错综复杂的关系,从而在庞大而杂乱的关系中找到其演变过程和规
学位
在如今这个高速经济发展的时代背景下,确定一个地区或国家经济发展的核心要素,不仅仅是物质财富的总量,也包括其人力资本水平。而一个国家人力资本水平的大小会直接影响到整个国家的竞争力。随着学者们对人力资本投资的理论实证研究发现,在我们提高地区人力资本投资水平时,不只是单一的对人力资本投资总量的考虑,更应该注重在人力资本投入时产生效率的大小。那么人力资本投入在各省的效率如何?省域间投资效率是否存在差异性而
学位
中国经济高速发展是以耗费大量自然资源为代价的,同时也带来了一系列的社会和环境问题,随着人口红利的消失,老龄化程度的加剧,资源约束趋于紧张,环境污染问题更加突显,区域经济发展不均衡不充分,经济发展的整体质量令人担忧。另外一方面,地区经济增长的差异问题也受到广泛关注。我国出于对整体经济发展的考虑,施行了东部沿海地区优先发展战略,这一战略措施对推动经济高速增长发挥了重要的作用,也造就了东部地区经济上的腾
学位
传统金融学假设投资者是完全理性的,能够综合分析各类信息而做出最有利的决策,但事实上由于投资者风险偏好不同、心理状态差异和个体之间相互影响,从而影响证券价格会偏离自身真实价值,股票市场出现羊群效应、过度反应、动量效应等非理性行为。2015年股灾造成千股跌停,证券市场市值短短几天就蒸发上亿市值,有学者认为是因为融资融券的杠杆性和对冲风险发展不平衡,加大投资者非理性投资进而引发一场股灾;也有学者认为是因
在信贷审批实践中,只有在历史上曾经被批准授予贷款的客户才会产生贷后还款信息。信用评分模型通常建立在这部分拥有违约与否标记的“接受样本”之上。被拒绝授予贷款的客户,由于缺乏贷后还款信息而被作为“拒绝样本”,无法应用于建模。然而,信用评分模型的应用对象是将来会申请贷款的所有客户。经过筛选后得到的接受样本显然无法代表模型应用的总体,由此带来的样本偏差问题会导致训练的模型有偏,在应用过程中缺乏准确性和稳定
学位
在当今社会,住房已经与人们的日常生活息息相关,它是当今人们生活的必须消费品,关系到千家万户的基本生活保障,同时房地产行业作为国民经济的主导性和基础性产业,它与其它行业有着很密切的相关性,对其它行业会产生巨大的影响。由于房地产行业的种种特殊性,不管是人民还是政府,对住房价格都极其关心。自从2000年以来,全国一些主要城市的房价迅猛的增长,尽管国家在宏观层面进行了一系列的调控,但是城市房价依旧稳步上升
学位