1、汇添富基金 吴振翔量化投资与机器学习量化投资与机器学习2018.5.60. 量化投资需要什么技术?量化投资需要什么技术?量化投资与机器学习,问题的定义是什么?需要先定义量化投资,进而才能思考机器学习技术在其中的应用。精品资料 你怎么称呼老师? 如果老师最后没有总结一节课的重点的难点,你是否会认为老师的教学方法需要改进? 你所经历的课堂,是讲座式还是讨论式? 教师的教鞭 “不怕太阳晒,也不怕那风雨狂,只怕先生骂我笨,没有学问无颜见爹娘 ” “太阳当空照,花儿对我笑,小鸟说早早早”我们如何看待量化投资我们如何看待量化投资2021/3/30汇添富基金投资投资收益收益/风险风险量化投资量化投资根据不同
2、的资金端收益风险需求,使用量化手段进行资产端配置,为客户提供投资管理服务。量化手段主要体现于资产端的投资管理。资金端资金端资产端资产端量化量化投资的应用场景投资的应用场景2021/3/30汇添富基金绝对收益目标相对收益目标按照投资目标划分按照投资目标划分权益类资产权益类资产固定收益类资产商品期货类资产大类资产配置按照投资标的划分按照投资标的划分长期短期日内高频按照投资期限划分按照投资期限划分投资标的期限目标量化投资需要解决的问题量化投资需要解决的问题2021/3/30汇添富基金无论是绝对收益目标还是相对收益目标,无论何种投资期限,量化投资需要解决的问题都可以总结为量化投资需要解决的问题都可以总
3、结为“挖掘收益挖掘收益”和和“控制风险控制风险”维度之一:选股,what维度之二:择时,when维度之三:交易执行,how挖掘收益挖掘收益市场风险:市场波动风险,跟踪误差风险黑天鹅风险:财务造假,负面新闻控制风险控制风险传统量化投资技术传统量化投资技术2021/3/30汇添富基金 历史行情数据 历史财务数据 历史研究、舆情、公告 历史数据历史数据 将数据结构化,提取特征 按照特定逻辑,通过统计方法对特征建立模型: 因子选股:要统计因子IC等指标,传统因子模型也是基于对收益率的线性回归; 择时策略:要统计信号的胜率、赔率、频率,并在样本内样本外做比对; 交易策略:类似于择时; 风险控制:绩效分析
4、是基于线性模型的,其他风险控制手段也基于一些风险特征在历史上的表现。经典统计学方法论经典统计学方法论 将基于历史数据的统计模型应用于当时的投资问题 为什么模型失效?为什么模型失效? 历史不重演了? 历史不会完全重演; 模型是历史的不完全表述; 我们认为,除非市场出现重大变故(类似熔断,股指期货限仓),历史规律不会断然变化,而连续变化的历史规律是可以捕捉的。虽然历史不会完全重演,但量化投资仅需要把握部分重演的历史。 让模型更好表述历史、预测未来,让模型更好表述历史、预测未来,是量化投资研究的努力方向。是量化投资研究的努力方向。量化投资量化投资量化投资需要什么技术?量化投资需要什么技术?2021/
5、3/30汇添富基金数据数据处理处理建模建模大数据大数据 = 新世界新世界异构数据的流水线异构数据的流水线特征工程特征工程 结构工程结构工程大数据时代来临,量化投资可以使用的基础数据充满可能性,大数据有望提升模型表述能力。利用工程学方法构造数据分析的流水线,不断提高数据的时效性。统计模型基于人类对于数据的观测,依赖于经营性的特征提取,深度学习可以通过定义结构进一步挖掘信息。1. 我们感兴趣的机器学习技术我们感兴趣的机器学习技术机器学习技术发展日新月异,但在狭义的量化投资领域的应用才刚刚开始。数据获取与数据处理数据获取与数据处理2021/3/30汇添富基金Source: Big Data and
6、AI Strategies: Machine Learning and Alternative Data Approach to Investing, J.P.Morgan从海外经验来看,投资领域对于另类数据的使用已经起步,数据使用范围可谓相当多样。从数据获取来看,主要来源如下:舆情文本、卫星图像、交通信息、物流信息、网络搜索、电商信息等。对应于这些数据来源,所需要的数据处理技术包括:自然语言处理、计算机视觉等。自然语言处理技术自然语言处理技术2021/3/30汇添富基金从数据处理和特征提取角度来看,目前自然语言处理技术已经较为成熟,可以对诸如新闻、公告等文本信息进行大规模处理。中文分词技术是
7、处理中文文本数据的基础;词向量技术是将高维且正交的one-hot向量,转变为低维且具有几何意义的向量的技术。自然语言处理技术自然语言处理技术2021/3/30汇添富基金海外某公司现在已经开始提供实时的Twitter舆情数据,直观来看,Tweet Volume和Sentiment都没有很强的领先性,但也不排除精细化处理后对投资能够起到作用。Source: http:/ Big Data and AI Strategies: Machine Learning and Alternative Data Approach to Investing, J.P.Morgan机器学习模型机器学习模型2021
8、/3/30汇添富基金通过对大量非结构化的数据进行处理,通过对大量非结构化的数据进行处理,成为数字化、向量化的数据集,进而成为数字化、向量化的数据集,进而通过机器学习算法进行建模和训练,通过机器学习算法进行建模和训练,是目前机器学习领域的主要方法论。是目前机器学习领域的主要方法论。工业界的机器学习模型主要解决以下问题:分类(classification)回归/预测(regression)其他,如生成模型,强化学习模型等机器学习模型的表述能力机器学习模型的表述能力2021/3/30汇添富基金以深度神经网络模型为例,早在1993年,就有学术研究从数学上证明:多多层神经网络层神经网络+非线性激励函数可
9、以近似非线性激励函数可以近似任何函数任何函数。近期实证研究表明,随着神经网络层数的增加,测试集的准确度逐渐提升;此外,在不增加神经网络层数,仅仅增加参数个数的情况下,模型的效果提升不明显;而在不改变参数个数的情况下,将层数从3层增加至11层,则可以显著提升模型效果。Source: Goodfellow, I. J., Bengio, Y., & Courville, A. (2017). Deep Learning2. 量化投资与机器学习量化投资与机器学习我们的实践以及思考存在的障碍存在的障碍2021/3/30汇添富基金融合?融合?量化投资量化投资机器学习机器学习数据大数据大数据小数据小投入大
10、投入大场景少场景少场景多场景多投入小投入小存在的障碍存在的障碍2021/3/30汇添富基金将量化投资和机器学习相提并论是不适合的数据数据场景场景投入投入以阿里的业务生态为例:核心电商、金融服务物流业务、市场营销云计算、文化娱乐本地生活、支付服务还是以阿里巴巴为例:互联网行业全球首个浸没液冷服务器集群自研网络原生设计分布式数据库X-DB统一大数据储存/计算平台,60000+服务器以阿里巴巴中国零售平台为例:2017年度活跃卖家:4.54亿 移动端月活跃用户MAU:5.07亿2017财年商品交易额GMV:5470亿美元EB级别数据从量化投资的应用场景来看:选股、择时交易、风控大多数据还是最后落到收
11、益率上而收益率存在极大的噪声目前量化投资领域的投入水平:单兵作战或小团队作战不如高校单个研究生的软硬件资源目前量化投资领域能够接触到的数据:行情:算上高频,TB级别公司数据:GB级别已经算很大了其他舆情、文本之类的,GB级别 机器学习,从入门到放弃?机器学习,从入门到放弃?2021/3/30汇添富基金数据少,噪声大,投入还小,只能做toy model?我们对股票市场有独到的理解!不需要大量数据和大量投入就能搞出好模型!相比于现有的量化模型,机器学习的模型和方法能够更好克服人为观测的偏差,如:市值因子为什么是市值取对数?反转因子为什么是区间收益率?风险为什么可以用标准差表示?现有量化投资的模型都
12、是基于简单的人为观测逻辑基于简单的人为观测逻辑,进行历史检验,获得较好效果之后进行使用的。而机器学习方法论是:对更为广泛的数据,基于机器学习的观测逻辑基于机器学习的观测逻辑,进行历史检验,获得较好效果之后进行使用。已有一些成果超越了现有量化模型的效果。我们认为,随着数据量提升、投入资源加大,未来机器学习方法将带来量化投资领域的重大变革!广阔天地,大有可为广阔天地,大有可为2021/3/30汇添富基金ICIR01234通信0.10330.652024.44%16.62%9.30%-3.65%-34.31%商贸零售0.10640.717522.57%12.57%2.66%-8.07%-22.24%
13、房地产0.10430.772827.69%10.40%1.88%-5.91%-27.20%医药0.09620.829322.88%13.32%0.88%-6.73%-26.80%轻工制造0.11050.635824.91%12.95%2.85%-7.77%-20.67%电子元器件0.10660.836928.58%16.64%-1.04%-6.66%-31.90%传媒0.10430.556920.21%20.23%0.06%-5.88%-17.43%家电0.10100.546823.34%12.07%10.03%-0.37%-29.12%建材0.11010.667025.97%12.88%7.
14、15%-7.63%-29.17%基础化工0.11681.045926.90%16.51%5.12%-10.88%-32.36%纺织服装0.11480.658220.62%16.10%10.38%-4.38%-27.76%汽车0.11120.831423.11%19.04%1.28%-4.37%-29.21%有色金属0.10910.605024.75%13.09%-0.75%-6.12%-26.41%石油石化0.09930.424722.60%15.18%3.67%-3.65%-27.18%机械0.10690.841226.24%12.06%3.70%-3.97%-32.86%交通运输0.117
15、00.725123.54%12.13%1.63%-6.04%-23.83%食品饮料0.10820.633924.38%13.17%6.33%-4.32%-28.61%钢铁0.12380.583323.26%11.98%7.15%-1.08%-26.45%建筑0.09940.580723.99%11.09%1.13%-5.58%-20.02%电力及公用事业0.11170.709620.96%12.06%10.37%-7.16%-27.38%农林牧渔0.12490.802127.05%24.66%1.41%-13.08%-27.97%计算机0.09610.684826.70%17.86%-1.39
16、%-6.05%-32.01%电力设备0.11370.850327.42%15.19%3.01%-5.78%-31.47%餐饮旅游0.09500.378718.75%18.75%-3.66%7.32%-14.26%煤炭0.10120.437414.10%10.08%7.50%-8.07%-11.16%综合0.08950.279811.13%3.26%5.48%10.25%-20.76%国防军工0.09770.399022.21%10.90%9.13%-5.25%-16.60%银行0.08450.250413.02%7.96%3.73%-7.16%-11.64%非银行金融0.10130.37331
17、4.08%18.98%0.29%-2.98%-20.39%我们用机器学习得到的因子的效果:测试区间:2011年至2017年样本空间:中证全指在所有市值分层和行业分类上均有效,且因子强度均比较高ICIR01234size_00.11780.989326.07%16.13%2.90%-2.09% -37.74%size_10.12681.139827.17%18.88%6.09%-7.06% -40.35%size_20.11771.024329.08%16.17%1.53%-6.98% -35.57%size_30.11261.059525.70%15.53%3.67%-4.34% -37.47
18、%size_40.10451.029523.52%15.08%2.52%-9.69% -28.53%size_50.10871.011627.09%13.16%3.53%-7.98% -31.55%size_60.10430.918627.90%10.26%0.50%-8.71% -26.74%size_70.09690.846725.02%11.46%1.38%-8.30% -26.68%size_80.09180.757423.58%12.74%4.22%-12.14% -26.17%size_90.09110.662520.93%10.70%2.30%-6.06% -25.77%广阔天地
19、,大有可为广阔天地,大有可为2021/3/30汇添富基金我们用机器学习得到的高频交易策略:测试区间:2017年样本空间:中证全指交易成本:单边千一下图为费后的累计收益(简单求和)曲线,平均日收益为0.13%00.050.10.150.20.250.30.352017010320170111201701192017020320170213201702212017030120170309201703172017032720170406201704142017042420170503201705112017051920170531201706082017061620170626201707042017071220170720201707282017080720170815201708232017083120170908201709182017092620171011201710192017102720171106201711142017112220171130201712082017121820171226非常感谢非常感谢欢迎交流!