1、浅谈多因子选股模型与机器学习算法2017风险模型01科学之精神 自由之思想 一切以法律文本为主,仅供合格投资者参考,市场有风险,投资需谨慎投资组合管理方式主动管理被动管理投资组合管理定性管理定量管理定性管理依赖于投资经理定性管理依赖于投资经理对对于市场和于市场和个股的定性判断个股的定性判断定量管理根据能够得到的公开数据,定量管理根据能够得到的公开数据,基于数学和统计的方法,建立统一的基于数学和统计的方法,建立统一的定量模型对股票进定量模型对股票进 行区分并依此进行区分并依此进行投资决策行投资决策 科学之精神 自由之思想 一切以法律文本为主,仅供合格投资者参考,市场有风险,投资需谨慎多因子模型来
2、源多因子模型由APT套利定价模型Arbitrage Pricing Theory 发展而来,定量刻 画了股票预期收益率与股票在每个因子上的因子载荷与因子收益率之间的线性线性关系关系。一般表达式为:科学之精神 自由之思想 一切以法律文本为主,仅供合格投资者参考,市场有风险,投资需谨慎组合的收益投资组合 P的收益可以分解为 m 个因子收益的线性组合如果对模型中某因子暴露度为 1,对其他风险因子暴露度为 0,则称该组合为这个因子的纯因子组合。假设因子 m 对应的纯因子组合的权重为,该组合对各个因子的暴露为 ,纯因子组合的收益为对于充分分散的组合,因子收益 就是因子 m 对应的纯因子组合 的收益。这是
3、将 称作是“收益”的原因。科学之精神 自由之思想 一切以法律文本为主,仅供合格投资者参考,市场有风险,投资需谨慎纯因子组合的线性组合风险与收益的匹配纯纯因子组合的线性组合可以构造出对每个因子具有指定暴露度的因子组合的线性组合可以构造出对每个因子具有指定暴露度的组合。组合。希望构建 一个组合,使组合对规模因子(size)暴露为 0,对 E/P 因子暴露为 0,其他因子无要求,则可先由两因素模型解出纯因子组合的个股权重 和,满足要求的投资组合权重为:0.3纯因子组合可将各种风险收益精确的切割开来,求解出纯因子组合中的个股权 重,就能精确控制组合对因子的暴露度,使组合只对希望暴露的风险因子暴露,从而
4、让风险和收益匹配。科学之精神 自由之思想 一切以法律文本为主,仅供合格投资者参考,市场有风险,投资需谨慎因子暴露度因子暴露度是通过将因子值正态标准化得到:这样的标准化方式可以使以流通市值为权重的投资组合(基准组合)对所有风格因子 0 暴露,非零的因子暴露度就是投资组合偏离了基准组合多少倍标准差。基准组合的收益就是截距项,因为基准组合的收益为:科学之精神 自由之思想 一切以法律文本为主,仅供合格投资者参考,市场有风险,投资需谨慎风险模型的作用历史回测和数据挖掘 事后分解和评价取得的收益历史回测和数据挖掘 历史回测和数据挖掘 通过对纯因子组合的收益考找到合适的因子降维:从对个股的预测减小到对因子的
5、预测对纯因子组合的收益考察找到合适的因子风险模型能预测未来的股票收益吗?风险模型的功能科学之精神 自由之思想 一切以法律文本为主,仅供合格投资者参考,市场有风险,投资需谨慎多因子模型风险分解估值因子估值因子Value Factor 成长因子成长因子Growth Factor财务财务质量质量因子因子Financial Quality Factor杠杆因子杠杆因子Leverage Factor 规模因子规模因子Size Factor动量因子动量因子Momentum Factor 波动波动率率因子因子Volatility Factor换换手率手率因子因子Turnover Factor 技术技术因子因
6、子Technical Factor改进改进的动量的动量因子因子Modified Momentum Factor分析分析师情绪师情绪因子因子Sentiment Factor股东因子股东因子Shareholder Factor市场风险风格风险整体风险行业风险科学之精神 自由之思想 一切以法律文本为主,仅供合格投资者参考,市场有风险,投资需谨慎1.数据数据清洗数据挖掘模式识别4.交易执行模型组合、应用评测标准:年化收益、夏普率、收益风险比组合模型:收益提高、回撤减小、绩效曲线平滑策略开发交易全流程CTA模型择时模型资金管理模型成本控制模型风险计算模型下单执行模型1.理论2.策略模型阿尔法模型3.组合
7、盘模型量化评测体系+资金管理组合回测验证反复修改结合实战科学之精神 自由之思想 一切以法律文本为主,仅供合格投资者参考,市场有风险,投资需谨慎统计学习算法02科学之精神 自由之思想 一切以法律文本为主,仅供合格投资者参考,市场有风险,投资需谨慎机器学习算法分类回归线性回归岭回归Lasso回归支持向量机决策树随机森林梯度树提升神经网络深度学习分类逻辑回归线性判别分析二次判别分析支持向量机决策树随机森林神经网络深度学习K最近邻算法降维偏最小二乘法监督学习监督学习聚类K均值聚类分层聚类谱聚类流形学习降维主成分分析多维尺度分析独立成分分析流形学习无监督学习无监督学习科学之精神 自由之思想 一切以法律文
8、本为主,仅供合格投资者参考,市场有风险,投资需谨慎Lasso回归线性回归使用最小二乘法得到系数w,但最小二乘法不对模型系数 w 作任何的先验假定。事实上,w 不可能取极大的正数或极小的负数;并且,在特征较多的情形下,很可能只有少数的几个特征具有预测 效力。因此引入正则化(regularization)的重要思想,在最小二乘法损失函数的后面 加入惩罚项R package:glmnet当惩罚项为系数 w 的绝对值之和时,这种回归方法称为 Lasso 回归(又称为 L1 正则化),损失函数为:科学之精神 自由之思想 一切以法律文本为主,仅供合格投资者参考,市场有风险,投资需谨慎决策树决策树决策树是一
9、个预测模型,代表的是对象属性与对象值之间的一种映射关系。树中每个节点包含一个规则,根据规则来进行分裂,使得节点分裂后的信息增益最大。树的各分支互相排斥,并覆盖整个空间。叶子节点是最终分类结果。科学之精神 自由之思想 一切以法律文本为主,仅供合格投资者参考,市场有风险,投资需谨慎决策树提升梯度提升决策树梯度提升决策树是将弱分类器以串行的方式组合以原始数据为训练集,训练一个弱分类器 C1,对于分类错误的样本,提高权重。以更新样本权值后的数据为训练集,再次训练一个弱分类器 C2,随后重复上述过程。每次自适应地改变样本权重将全部弱分类器按一定权值进行组合得到强分类器,错误率越低的弱分类器所占权重越高R package:xgboost