机器学习:开拓金融量化新前沿

499人浏览 / 0人评论 2019-12-24

文章内容来自网络,侵权联系及时删除

研报标题:机器学习:开拓金融量化新前沿

研报作者:光大证券 刘均伟


机器学习如今无时无刻不在影响着世界,越来越多的工具和产品被发明出来以替代以往需要大量人工操作的作业,有些甚至是行业专家才能完成的工作。在棋类运动上,深蓝(DeepBlue)、AlphaGo等程序已经陆续战胜了人类顶尖棋手,而在金融领域,世界上第一个人工智能ETF也在2017年诞生。虽然该ETF目前的表现较为一般,但却足够促使我们思考一个问题:机器学习或者人工智能是否会深刻地影响到金融领域?如果是的话,我们又该如何探索机器学习在金融领域的应用方式。


金融领域尚是机器学习下一片蓝海。21世纪开始,尤其是最近10年,虽然机器学习的研究与应用成果在自然科学领域有了突飞猛进的进步,但在金融领域的应用却受到了挑战。基于对海外主流投行在机器学习应用情况的数量,我们认为机器学习在金融服务方面已经崭露头角,而在金融投资领域则有待观察。


量化投资结合机器学习的趋势不可阻挡。量化投资是机器学习天然的应用场景,我们从整体环境的改变,机器学习实现难度的降低,传统量化遇到的瓶颈这三个角度论证了量化投资为何要研究机器学习。在这三个方面相互作用下,机器学习在未来量化研究中的作用将越来越大,如何找到机器学习合适的运用方式就成了当前量化研究领域最有前景的研究方向之一。


金融领域下机器学习的正确用法仍需探索。许多在看似直观的应用方式下直接套用机器学习算法的做法往往并不能达到预期的效果。在金融投资领域下运用机器学习的方式可能需要更进一步的探索与尝试。我们认为可以尝试的方向包括但不限于数据处理,“白箱“化处理,过拟合程度的估计等等。我们构造三个简单的示例,在第一个示例中我们验证了可以将交易数据结构化为更适合机器学习算法的结构,成交量或成交额等分K线比传统时间等分K线有更适合的统计特征,用它们作为输入数据可以得到更好更稳定的结果;第二个示例展示通过研究算法下不同输入特征的特征重要性,可以更好地理解在算法之后是什么因素在真正起到预测作用;最后一个示例中我们通过构建生成数据研究RSRS择时策略的路径依赖程度,并一定程度上测试了我们所使用的开平仓阈值参数值是否为最优选择。

 

1、金融是机器学习下一个主战场


机器学习如今无时无刻不在影响着世界,越来越多的工具和产品被发明出来以替代以往需要大量人工操作的作业,有些甚至是行业专家才能完成的工作。在棋类运动上,深蓝(DeepBlue)、AlphaGo等程序已经陆续战胜了人类顶尖棋手,而在金融领域,世界上第一个人工智能ETF也在2017年诞生。虽然首款人工智能ETF目前的表现较为一般,但却足够促使我们不得不思考一个问题:机器学习或者人工智能是否会深刻地影响到金融领域?

 

1.1、自然科学领域:大放异彩


普通大众对于机器学习的认知始于2016年3月阿尔法狗(AlphaGo)和世界顶级围棋大师李世石的人机大战。大赛以谷歌(Google)开发的机器人AlphaGo4:1战胜人类结束。自此,机器学习在各个领域的应用逐渐拓展开来,例如,将双语翻译正确率提升60%,帮助物理学家寻找新的超级材料,等等不一而足。


实际上,机器学习概念的提出与应用远比大部分人想象的要早。1980年代相对正式的机器学习概念就已经被提出,目前比较主流的算法如神经网络、支持向量机(SVM)、树模型(CART)等也在21世纪之前就已经较为成熟,而相对简单的逻辑回归、kNN等算法更可以追溯到1950年代。甚至目前最为流行的深度学习也在2006年就已经出现在正式报告里。然而虽然机器学习的概念与算法在很早时期就已经成熟,但在当时并未取得引人瞩目的成就,乃至于在20年代末机器学习已然有些日渐式微的迹象。

 

 


但从21世纪开始,尤其是最近10年,机器学习的发展与应用成果有了突飞猛进的进步。如今机器学习在各个行业大获成功应用主要归功于三个方面:数据、算法和算力。近年来,在学术界和企业界的共同推动下,数据量和算力都有了很大的提高,算法也小有突破。而在谷歌、亚马逊、IBM、微软、阿里巴巴的推动下,高效又便宜的算力也变得越来越容易获得。在这种背景下,机器学习在各个行业的的应用前景更多的则是取决于数据在该行业的积累。


受益于大数据与大算力,我们早已无时无刻不处于机器学习环绕的世界,我们手机上的语音识别,面部认证;购物网站或视频网站针对客户消费或浏览习惯发送的推送内容。那么同样有许多数据积累的金融行业,机器学习的应用与发展又如何呢?

 

1.2、金融领域:服务崭露头角、投资有待观察


李开复在他的著作《人工智能》里说,“金融行业是AI(人工智能)目前最被看好的落地领域。机器学习将会被用来模拟、识别、分析、自动化、预测、高频交易”;“未来五年,算法-量化交易策略将会取代人类,主宰资产管理领域”。其理由包括:各垂直行业相比较而言,金融是全球大数据积累最好的行业;银行、保险、证券等产业其本身业务就是基于大量数据和统计来开展的;金融行业也非常注重数据的规范化、采集自动化、存贮、集中和共享。


按照目前金融行业本身的业务,可以大致分为金融服务与金融投资两大类。对海外主要投行在机器学习上的布局进行梳理之后,我们认为:机器学习在金融服务上的应用已经崭露头角,但在金融投资中的作用还有待观察。


首先,各大投行目前在机器学习上的布局主要以搭建机器学习实验室为主,策略开发实验室的组建则较为罕见,且相对较晚。早在2010年,摩根斯坦利就组建了由AmbikaSukla带队的“摩根斯坦利机器学习实验室”。2014年,机器学习和金融专家Juan-LuisPerez在瑞银组建“证据(Evidence)实验室”。2017年,瑞信在旧金山拥有由前CapitalOne数据科学团队主管JacobSisk领导的“CS实验室”。而在2018年,摩根大通、瑞银、巴克莱相继组建了偏策略开发的机器学习团队。可以看出,金融机构在机器学习领域的投入在近几年明显有加大的趋势。


其次,从各大投行基于机器学习发布的金融产品来看,同样集中在金融服务方面,以智能算法替代传统的人工业务,而聚焦在投资领域的产品则乏善可陈。比如摩根大通2017年开发了一款金融合同解析软件COIN,可以在几秒钟内完成之前律师和贷款人员需要360000小时才能完成的工作,且错误率大大降低。又比如瑞银发布了一个机器学习系统,可以自动处理客户的建仓请求邮件和调仓请求邮件,将该工作时间从45分钟缩短至2分钟,大大提高了工作效率。


最后,即使是与投资相关的产品,也大都局限在投资流程中相对简单的部分,例如算法交易、风险分析等。比如摩根大通发布的LOXM(机器学习交易系统)在2017年第一季度已经在欧洲算法交易中使用,表现极佳。真正的投资决策过程,还极少直接采用机器学习的成果。

 

 


当然,无论是各大投行,还是对冲基金,甚至是大学研究机构,都一直在尝试把机器学习应用于金融投资之中。比如德意志银行在2017年底公开宣布的机器学习交易平台Autobahn2.0,能够实时的预测股票价格、交易量、和动量(momentum),并依据实时变化调整交易策略。但从首款人工智能ETF的表现来看,机器学习在金融投资中的应用效果还有待观察。


作为首只在纽交所挂牌的人工智能ETF——AIPoweredEquityETF(AIEQ),AIEQ背靠IBM的WatsonAI,从美国市场挑选40至70只股票,日频调仓,希望在同等波动水平下战胜美国大盘指数。但该ETF自2017年10月17日成立至今表现并不稳定,特别是2018年10月份至今的巨大回撤令人诧异。截至2018年12月31日,AIEQ年化收益-4.34%,年化波动17.61%,最大回撤25.65%,夏普比率-0.17;而同期标普500指数收益年化-1.78%,年化波动15.77%,最大回撤19.78%,夏普比率-0.04。可见机器学习与人工智能在金融投资上的运用远不如我们想象中的那么容易。

 

 


我们认为,机器学习在金融投资中的应用效果不及预期,一方面与金融数据不稳定、信噪比偏低有关,另一方面也与投资者积极性欠佳有关。


首先,由于金融数据不稳定、信噪比偏低,机器学习在金融投资领域的应用方向看似直观,但实证效果往往不如人意。预测市场未来涨跌(分类问题),预测股票未来价格(回归问题)都是投资决策中的核心问题,然而绝大多数投资者在应用机器学习来达到上述目的时,结果都令人大失所望。即使在回测过程中获得了不错的结果,策略在样本外的有效性确往往不太令人满意。


其次,虽然金融投资领域对机器学习的接受程度越来越大,但依然有不少业界人士对其应用前景持怀疑态度。除了金融数据的不稳定性、算法的过拟合问题、构建的新因子失效速度过快等技术难题之外,也有投资者认为是否应用机器学习并不重要,因为业界成功的投资公司中,既有应用了机器学习的公司,也有完全没有应用机器学习的公司。换言之,是否应用机器学习与投资是否成功没有必然的联系。特别是,机器学习模型相对黑箱的特点,让投资理念相对成熟的基金经理很难接受,在投资过程中也较难应用。


综上所述,虽然目前机器学习在金融投资中的应用并不顺利,但我们认为其依然存在研究和尝试的价值,特别是在找到合理的运用方式之后,机器学习有潜力在金融投资,尤其是量化金融领域,开辟一条新的道路。目前海内外都已经有先行者在探索这条道路,美国具有代表性的比如:WealthFront,Betterment,JaneStreet,BridgeWater等,而中国则是AFAFinance走在前沿。


目前,国内外金融机构中,机器学习在金融投资或策略开发中的主要应用场景集中于以下几类:


1.资产配置方案,资产分类方式;
2.生成新的alpha因子,alpha因子结合方式;
3.参数测试,模型优化,最优策略挑选;
4.避免人为因素在交易策略制定中的影响等。


从上述应用场景来看,主流的应用场景都与量化投资息息相关。因此,接下来的章节,我们将进一步聚焦在量化投资领域,探讨为什么量化投资需要研究机器学习,以及应该从什么角度出发研究机器学习。

 

2、探索金融领域下机器学习的正确用法


在第一章节中,我们已经讨论过,许多在看似直观的应用方式下直接套用机器学习算法的做法往往并不能达到预期的效果。在金融投资领域下运用机器学习并非想象中那么容易。我们认为在算法本身已经日益强大的今天,要想利用机器学习取得金融投资的成功,需要更多投入精力与研究的不在于算法本身,而在于算法之外。在运用模型算法前应该做哪些处理,在运用算法过程中应该注意哪些细节,在运用算法后又该如何看待算法给出的结果等等。也正是基于这样的想法,我们将在2019年推出我们的机器学习系列报告。该系列报告的重心并不会放在利用各个不同的算法模型实现具体的策略上,更多的则是着眼于算法外合理的细节处理。


我们不少灵感与想法是源于一篇论文《The7ReasonsMostMachineLearningFundsFail》。在该文中作者MarcosLópezdePrado提到了造成机器学习投资失败的最主要的7个原因。在指出失败原因的同时其实也或直接或间接为我们的研究重心指出了方向。在我们机器学习系列报告接下来的一系列报告中,我们也将研究并展示这些大家关心的问题的一些解决方案或合理的研究方式。


作为该系列的开篇报告,在接下来的篇幅里,我们将首先花一点篇幅说明:做量化为什么要研究机器学习。之后则从广受机器学习研究者关注的角度展示三个示例用以表明我们认为有潜力的研究方向。虽然这些示例仅是我们后续专题报告中相对粗浅的研究结论,但已经可以从中一窥这些研究方向在金融机器学习中的巨大前景。

 

2.1、量化投资为什么要研究机器学习?


在上一章结尾,我们已经知道在金融投资领域,有投资人士认为“有的公司利用了机器学习很成功,也有些没利用机器学习的公司同样很成功。”那么,既然不用机器学习照样可以很成功,量化投资为什么还要研究机器学习呢?


我们认为有三个原因:整体环境的改变,机器学习实现难度的降低,以及传统量化遇到的瓶颈。我们分别阐述这三个方面对于是否研究机器学习带来的影响。


整体环境的改变:市场的整体环境是不断改变的,这种改变以一种不可逆的方式向电子化发展。而随着整体环境的变化,以往常见的商业模式可能会逐步被新的方式取代。我们知道在纽约交易所电子化以前,许多经纪人(Broker,或者叫FloorTrader)在纽交所大厅里为客户执行交易操作,并通过它来赚取佣金。在交易所刚引进电子撮合时,由于大部分人还没有完全适应新的交易环境,仍然有不少FloorTrader能做的很成功。然而当越来越多的经纪人开始熟悉利用更有效率的电子撮合机制,那些仍然坚持在大厅以传统方式下单的经纪人越来越难做。直至如今,很难再见到在大厅依靠手势下单的经纪人了。虽然目前机器学习在金融投资领域的应用尚不完全成熟,但如果未来随着越来越多的人与团队参与并熟练运用研究效率更高的机器学习,那么坚持不用机器学习的研究者将面临巨大的挑战,甚至是淘汰。而正如我们在上一章所看到的,如今尝试运用机器学习的团队的确越来越多。而通过后面第二点“机器学习实现难度的降低”的剖析,我们认为市场上运用机器学习的参与者占比越来越大的趋势还将继续。换句话说,“现在不用机器学习也能成功的公司,在未来的金融环境中如果仍然不用机器学习,未必能继续成功下去了”。


机器学习实现难度的降低:机器学习在未来的实现难度是在不断降低的,而且这种难度的降低是在算法、算力、数据三个维度上全面推进。算法在日新月异的更新,随着Google等科技巨头算法开源,世界各地的思想在GitHub上交汇,任何一个新的算法进展都能借由互联网在短时间传遍全世界。算力也在变得越来越强,被验证了几十年的摩尔定律依然发挥着神奇的效果,我们使用的硬件设施每间隔1到2年,就会有突破性的升级。而每时每刻在全球各个市场上发生的交易,都在扩充着我们日后可以使用到的数据信息。可以预见,随着时间的推移,运用机器学习的成本将会变得越来越低。


传统量化遇到的瓶颈:传统量化从1950年代Markowitz建立均值方差模型,到1990年代alpha因子策略的兴起,再到如今21世纪的广为人知。但随着对各种理论与体系的逐步完善,研究者们都逐渐开始发现传统量化的一些瓶颈,比如如何处理非线性问题。无论是资产配置,还是新因子挖掘,线性体系的完善程度已经很高,研究对于该体系的边际改善非常低。几年前大家还能基于线性逻辑开发出较多有效的新因子,如今其难度已经有了数量级上的提升,再去挖掘出这样的新因子已经是非常困难的事情。而机器学习尚且是量化研究领域的一片蓝海,而它的其中一个优势正是能找出对象之间的非线性关系。


如果说机器学习将是量化研究未来绕不开的课题,那么如何尽早找到合适的运用方式就成了当前最有前景的研究方向之一。接下来的章节,我们会展示在这一方面已经实现的部分想法与尝试。

 

2.2、示例一:将数据处理成更合适的结构


金融数据本身,无论是基本面财务数据,还是价量数据,都有良好的结构性。这也是为什么一些在金融领域应用机器学习的支持者看好其前景的原因之一。但正如《The7ReasonsMostMachineLearningFundsFail》文中提及的,这样的结构化方式以及一些处理的方式,是不是真的就适合直接运用在机器学习算法上呢?


拿最常见的量价数据来说,我们大家已经习以为常的K线数据,它的结构化方式(或者说取样方式)都是按时间等分切片取样。比如我们说日线,就是按每个交易日切分数据,每个K线里都是一个完整交易日(4小时)的交易信息;或者我们说5分钟线,就是按每个5分钟切分数据,每个K线里是5分钟的交易信息。


时间等分切片的好处是显而易见的,人们在处理任何事情时都习惯于以时间为刻度,包括处理交易事务;同时当我们需要以图标的形式直观地观察一个价格序列的走势时,横坐标按时间等分也更方便研究者确定任何一个价格发生的时间点。


但当我们需要利用机器学习工具去做研究时,时间等分切片却未必是一个比较好的结构化方式。因为不少机器学习算法要求输入数据尽量满足独立同分布,或者满足同方差性等条件。而时间等分采样切片明显不太符合这样的性质,很大可能每个样本点所蕴含的信息多少是不均的,有些时刻大家更有交易意愿,波动放大;有些时候却交易情绪低迷,成交量萎靡,波动很小。总结而言,时间等分切片会面临样本点信息不均,序列自相关性,样本非同方差,收益率非正态分布等问题,因此为了更好地利用机器学习这套工具,更适合的做法是将价量数据以其它更好的采样切片方式来制作K线。


目前更有效的采样切片方式包括:tick等分K线,成交量等分K线,成交额等分K线,信息量等分K线。本文我们仅做一些简单的实证,通过一些统计数据,展示时间等分、Tick等分、成交量等分以及成交额等分的K线方式哪些更适合于大部分机器学习算法。信息量等分K线以及更详细全面的测试与分析会在我们后续的系列报告中有所展示。

 

表3:多种k线切片采样方式

k线切片方式 解释与目的
时间等分切片 每根k线有相同的时间跨度
Tick等分切片 每根k线有相同的交易笔数
成交量等分切片 每根k线有相同的成交量
成交额等分切片 每根k线有相同的成交额
信息量等分切片 每根k线有相同的信息量

资料来源:光大证券研究所

 


我们以平安银行(000001.SZ)股票为例,利用其2017年一整年的价量数据分别构建时间等分K线、Tick等分K线、成交量等分K线以及成交额等分K线。构建的过程中为了使其具有可比性,每种K线在一年内的K线总数在同一数量级下。


通过比较这四种不同K线切片方式下收益率数据的均值、方差、偏度与峰度,明显可以看出时间等分K线下的收益率非常明显的呈现左偏、尖峰、厚尾的统计特征,正态性很弱。而Tick等分K线、成交量等分K线以及成交额等分K线下的收益率则有较强的正态性,偏度接近0,峰度接近3。

 

 


考虑到不同交易者进行一笔交易的成交量可能大不相同,以及一些高送转股票会有的拆股行为,或者一些公司的股票增发与回购行为,成交额等分K线相比Tick等分K线与成交量等分K线往往更为稳定。


我们也构造了一个极为简单的模型,来对不同K线切片方式下的算法表现作一定展示。模型的思路是基于SVM分类算法,利用历史最近固定数量K线的收益率序列来尝试预测下一根K线的走势(涨、平、跌)。这里我们分别拿时间等分切片K线与成交量等分切片K线作为数据进行比较。


选取了目前上证50中交易历史足够久的40只股票作预测,与我们预期的一样,像这样简单粗暴的算法套用并没有实质上的预测效果。但通过对比不同K线上的结果,我们依然可以发现不同K线下的效果有所差异,成交量等分K线数据下的模型效果整体表现更为稳定。在测试集上,40只股票中有29只在成交量切片K线数据上的预测准确性更高。无论在训练集与测试集,成交量切片K线数据上的模型准确度均值都高出时间切片K线约1个百分点;同时观察不同股票模型准确率标准差,也能发现算法在成交量切片数据上的表现更为稳定。

 

2.3、示例二:利用特征重要性打开“黑箱”


机器学习不为大部分投资者接受的一个广为人知的原因在于其不可解释性。尤其是如今机器学习算法的“王者“们——深度神经网络算法及其延伸算法。人们在运用这些算法得到一个看上去挺美好的结果后,往往很难解释到底是什么特征,在以什么样的方式导致了这个策略的有效性。这就使得在使用这些机器学习策略时很难评估信心程度。


会出现这样的现象的原因在于人们仅仅把机器学习算法当成预测工具。实际上更多时候,机器学习更适合当成一个研究工具而非预测工具。机器学习算法给我们提供了一种寻找那些从经典逻辑或计量经济学逻辑出发难以理解的非线性预测信息。通过机器学习我们有了一个对这样非线性解释性现象的研究入口;至于当我们理解了这些非线性预测能力的逻辑与思路,如何利用它们构建我们的投资策略,那就是很多业界投资者们最擅长的事情了。


打开机器学习“黑箱”的一个有效方式就是研究每一个预测模型中的特征重要性(FeatureImportance)。不同的机器学习算法的“黑箱”程度不同,比如树模型(CART)则是一种相对“白箱”的算法,而支持向量机(SVM),神经网络(NN)则非常“黑箱”。这就使得探索不同算法的特征重要性的难度不一。在本篇报告中,我们仅拿相对简单的树模型做示例,相对全面的研究方法我们将在后续的系列报告中剖析。


我们在2018年上半年发表了一篇利用机器学习算法来进行因子择时的深度报告《因子正交与择时:基于分类模型的动态权重配置》中,报告中我们测试分别用不同的分类算法来对因子未来一个月的收益方向进行预测,从样本内及样本外跟踪的效果上看都很优秀。预测模型里有十几项涉及到不同类型的输入变量,那么到底是哪些变量在真正提供预测能力,我们尝试做一些初步的分析。


因子择时模型需要预测的是表4中的14个常用因子未来一个月的收益方向,而择时变量则选取了表5中所示的宏观经济环境,货币政策,市场状态变量,以及因子自身收益与波动情况数据。(具体的因子择时策略构建与最终表现参考报告《因子正交与择时:基于分类模型的动态权重配置》)

 

 


这里我们研究使用的随机森林(RandomForest)算法进行因子择时时不同特征的特征重要性,像树模型这样本身分类方式较为直观的,相对“白箱”的算法,其特征重要性也较容易计算。这里我们使用“平均不纯度减少”方法(MDI)来测算不同输入变量的特征重要性,MDI是通过计算每个变量对分类树每个节点上观测值的异质性的影响,从而比较变量的重要性。MDI值越大表示该变量的重要性越大,其蕴含的预测能力越强。


可以看到在预测不同的因子时,真正提供有效信息的输入变量并不一样,有些变量实际上并没有真正起到预测作用,反而可能更多地制造了干扰预测效果的噪音。例如PPI数据对预测市值因子(Ln_MC)卓有贡献,但几乎对动量因子(Momentum)没有预测作用。


当然,MDI仅仅只是让我们对哪些变量有解释作用有个初步的了解,其算法也天然有些不足之处,例如替代效应等,这就需要配合其它的计算一起考虑。同时这些变量以什么样的逻辑链解释预测能力,以及之后如何利用这个结果来改进策略也都有待更深的研究。

 

2.4、示例三:利用生成数据了解过拟程度


另一个机器学习被人诟病的方面就是过拟合。机器学习在找寻数据关联性的强大能力使其极其容易出现过拟合的现象,这就使得研究者能较容易在样本内得到非常好看的策略表现与净值曲线,但一到样本外策略的表现就大大不如样本内。


许多不当的回测方式都会造成过拟合的发生,大家比较熟知的比如幸存者偏差(SurvivorshipBias),未来信息(Look-aheadBias),过分数据挖掘(DataMining),路径依赖(PathDependence)等。甚至在正确地进行回测时,也不可避免地会有过拟合的风险,重复在同一块数据上回测会增大研究者发现“看似有效策略”的概率。当然,这些“看似有效”的策略实际上完全不可信,依靠它们交易往往会以损失惨重收尾。


因此处理过拟合问题是机器学习绕不开的问题,也是大部分策略开发需要考虑的一点。如何应对评估策略的过拟合程度以及如何合理的采取尽可能减少过拟合概率的回测方法,也将在我们后续的系列报告中探讨。我们在本文中通过一个示例展示一些基本的评估过拟合程度的方式。


A股中很多研究者都在研究择时策略,希望能一定程度上预测市场未来的涨跌。有些利用技术指标,有些统计模型。我们在2017年初构建的RSRS择时模型就是运用了最简单的统计模型——线性回归,来构建了一个指数择时模型。在样本内以及近2年的样本外跟踪下效果都很优秀,受到业界的肯定。但实际上这个策略是真的有效,还是只是这两年运气好使得策略“看上去有效”呢?包括大部分其它研报上的择时策略,在回测时都是基于A股历史走势来测试效果的,包括一些参数最优化的选取也是基于同样一条历史走势。这就使得策略很容易产生路径依赖的过拟合现象。为了评估策略参数是否过分优化以及什么样的参数真正合适的取值是多少,一个简单的方式是将策略在生成数据(SyntheticData)而不是历史数据(HistoricalData)上回测。这里生成数据是指基于股票或指数历史量价数据的统计特征而生成的价格走势数据。这样我们就不再只在唯一的一条历史走势曲线的回测,而是得以在很多模拟的走势曲线上进行测试。采用MonteCarloSimulation,我们可以初步判断RSRS现有的参数是否严重过拟合,以及最适合的参数可能取值多少。


由于RSRS策略需要的数据是每天的最高价与最低价,因此仅仅拟合生成日收益数据是不够的。我们基于实际的2009年1月1日至2017年12月31日内的沪深300指数1分钟价格数据来制造同时间段内的生成数据。这样我们可以基于生成的1分钟数据序列得到生成数据中每日的开盘价、最高价、最低价与收盘价。我们共生成了1000条模拟沪深300指数,在图11中我们随机抽取了4条生成曲线作为展示。

 

 


以原有RSRS沪深300择时策略的参数,我们在每个生成曲线上测试了RSRS择时策略的效果,整体来看,RSRS择时策略都较为有效,尤其在规避大幅下跌以及长期震荡下跌的效果上较好。但整体回撤与效果明显不如在实际沪深300指数上那么优秀,同时我们也发现如果生成指数长期处于类似于美股指数那样稳定上升的趋势里,策略表现往往不如指数本身。在图13中展示的生成曲线上可以明显看出,在后半段的上升趋势里,RSRS策略有间歇性的踏空现象。

 


在上述研究中我们可以发现RSRS策略在生成数据上也有效果,那么参数是否有明显的路径依赖现象呢,最优参数到底取多少更合适?RSRS策略共有3个参数:回归期数N,标准化窗宽M,开平仓阈值S。这里我们仅就最后的参数S展开测试与讨论,N与M的取值就取实际中运用的参数18与600。我们测试每个生成指数上RSRS策略在参数S取值0.5、0.6、…、1.5这11个不同情况下的表现。在图12与图13的生成指数上,参数S默认取值0.7虽然表现不错但并不是最优参数,图12的生成指数上最优参数是0.9,而图13的生成指数最优参数是0.6。

 


为了更直观的体现哪个参数大概率是最稳定优秀的参数,我们构建了参数平均排名指标。其目的是希望能将不同生成指数上的参数表现一起考虑竟来。参数平均排名的计算方式如下:


1.计算每个生成指数上策略净值在不同参数下的排名,最小的排名1。
2.计算每个参数在所有生成指数上的净值排名的均值。


在参数S的平均排名指标计算中,排名可取值数值范围为1到11的正整数,从下图可以看出,参数S的参数平均排名指标随着参数从0.5升至1.5,有一个较明显的先升后降的下凹抛物线的形状,顶点在S=0.7处达到。可见在参数N与M取值默认参数下,阈值S取值0.7的确是更为稳定合理的最优参数。

 

 


在上述研究中,所有的结论的可靠性实际也是基于生成数据的可靠性基础上的。模拟出来的生成数据到底多大程度上能表征沪深300指数实际上真正的特性,就取决于模拟数据的生成方式。能够更好更精准地制作有效生成数据将会大大提高我们对策略参数过拟程度的认知判断,我们将在后续的研究系列报告里更深入地探讨研究这一课题。

全部评论