1、人工智能机器学习及在金融行业应用人工智能机器学习及在金融行业应用 人工智能机器学习及在金融行业应用 内容?人工智能人工智能?机器学习机器学习AI分支分支?定义、流派定义、流派?任务任务?常见范式常见范式?算法介绍算法介绍?在金融中的(潜在)应用在金融中的(潜在)应用?总结:金融应用场景总结:金融应用场景 内容?人工智能?机器学习A I 分支?定义、流派?任人工智能(AI)?1956年,达特茅斯会议 (John McCarthy,19272011)约翰约翰.麦卡锡麦卡锡 AI 五十年留念(五十年留念(19562006)什么是什么是AIAI?(Marvin Minsky,19272016)马文马文
2、.明斯基明斯基-研究如何让计算机完成那些只有依靠人类智力才能完成的任务研究如何让计算机完成那些只有依靠人类智力才能完成的任务Mavin Mavin Minsky Minsky-实现人类智能的功能,途径并不一定与人类智力相同实现人类智能的功能,途径并不一定与人类智力相同John McCarthy John McCarthy-研究提升机器解决复杂任务能力的领域研究提升机器解决复杂任务能力的领域 人工智能(A I)?1 9 5 6 年,达特茅斯会议 (J o h n AI科学的分支 计算机计算机视觉视觉 语音语音识别识别 基于规则基于规则的系统的系统 机器学习机器学习 自然语言自然语言处理处理 机器
3、人学机器人学 A I 科学的分支 计算机视觉 语音识别 基于规则的系统 机器学机器学习无处不在 机器学习无处不在 机器学习?何为机器学习?何为机器学习?机器通过算法自动地从数据中学习知识机器通过算法自动地从数据中学习知识?两大派别两大派别?AIAI的一个分支的一个分支(计算机科学家)关注问题,不在乎手段(统计、代数、逻辑、几何)?应用统计学的分支应用统计学的分支(统计学家)关注算法、不在乎实用?经典统计学(频率主义)经典统计学(频率主义)机器学习机器学习?足够测量,无需构建模型?适合小型问题(少量参数)?可解释 统计学统计学AI分支分支?但复杂问题数据稀疏?举例但复杂问题数据稀疏?举例 分支分
4、支 机器学习?何为机器学习?机器通过算法自动地从机器学习 vs.经典统计学 欠拟合(偏差大)过拟合(方差大)参数优化 目前,金融行业模型 (特别是风险控制风险控制)?基于计量经济学理论?统计学统计学为主要分析方法 机器学习 v s.经典统计学 欠拟合(偏差大)过拟合(机器学习(AI分支)?“Machine Learning is the study of computer algorithms that improve automatically through experience.”Tom Mitchell,1997?从示例(从示例(instance)中学习)中学习?何为示例?标签?何为示
5、例?标签??特征工程(重要)特征工程(重要)机器学习(A I 分支)?“Ma c h i n e L e a r n i n g 金融领域的特征举例?多因子选股模型中常用的组合特征及逻辑 金融领域的特征举例?多因子选股模型中常用的组合特征及逻辑 股票因子池?特征建构特征建构?特征抽取特征抽取?特征选择特征选择 股票因子池?特征建构?特征抽取?特征选择 机器学习任务?分类、回归问题(有标签)分类、回归问题(有标签)预测性预测性 Data Supervised Semi-supervised Active Learning?聚类、相关性问题(无标签)聚类、相关性问题(无标签)描述性描述性 Unsu
6、pervised 机器学习任务?分类、回归问题(有标签)预测性 各种机器学习范式?监督学习?无监督学习?半监督学习?主动学习?迁移学习?多任务学习?多示例学习?多标记学习?强化学习?深度学习 各种机器学习范式?监督学习?无监督学习?半监督学习?监督学习(Supervised Learning)?两大任务两大任务?回归回归(regression)?分类分类(classification)观察数据分为不同的类别观察数据分为不同的类别?回归回归(区别于统计学的回归)解决过拟合,引入正则项 变量相关性、非线性变量相关性、非线性 惩罚回归模型(Lasso回归、岭回归等)、卡曼滤波?分类分类 准确率高、预
7、测意义大准确率高、预测意义大 Logistic回归、SVM、决策、随机森林、神经网络、boosting 监督学习(S u p e r v i s e d L e a r n i n g)?两大任分类算法Logistic(对数几率)回归?广义线性回归(线性变换+非线性函数)?sigmoid函数?应用:垃圾邮件分类、疾病判断 分类算法L o g i s t i c(对数几率)回归?广义线性回归Logistic回归在金融中的应用?信贷风险管理?资产价格变化方向的预测 L o g i s t i c 回归在金融中的应用?信贷风险管理?资产价分类算法-SVM(Support Vector Machine
8、)?思想:思想:找到最佳超平面使得正负样本间隔最大?采用核函数解决非线性问题(高维映射、低维内积)?适用于:小样本、非线性、高维度问题?缺点:数据敏感、非线性问题需选核函数、复杂度高 分类算法-S V M(S u p p o r t V e c t o r Ma c h i nSVM在金融中的应用?举例举例:资产价格变化方向的预测资产价格变化方向的预测 线性组合线性组合 SVM分类分类?举例:多因子选股举例:多因子选股(训练:因子暴露度和收益率)1.线性核收益分化明显(高斯核、多项式核、线性核)2.与传统多因子模型比无较大优势 S V M在金融中的应用?举例:资产价格变化方向的预测 算法介绍决
9、策树(Decision Tree)冷血冷血 表皮表皮 体温体温 恒温恒温 非爬行类非爬行类动物动物 鳞片鳞片 爬行类爬行类动物动物 非爬行类非爬行类动物动物?非企业投资决策技术?用于用于:分类和预测?方法:方法:寻找最优变量和分裂阈值(Gini系数、熵),最小化损失函数?特点特点:逻辑简单、鲁棒性差、可集合其他模型?算法介绍决策树(D e c i s i o n T r e e)决策树在金融中的应用?举例:决策树选股 因子暴露度与个股收益率存在非线性关系因子暴露度与个股收益率存在非线性关系 选用:动量(Mom)、波动率(Vol),市盈率(PE)三个因子 决策树在金融中的应用?举例:决策树选股
10、因子暴算法介绍贝叶斯?理论:主观判断,新信息修正信念理论:主观判断,新信息修正信念 P(A/B)=P(B/A)*P(A)/P(B)?用于:分类用于:分类 P(C=1|X1,X2,X3)P(C=2|X1,X2,X3)则判定类别为1;否则为2 找出最大的找出最大的P(X|C)P(C)P(X1,X2,X3|C=i)=P(X1|C=i)*P(X2|C=i)*P(X3|C=i)?贝叶斯网络贝叶斯网络 (贝叶斯公式+图论)?应用:应用:治病机制、投资策略、过滤垃圾邮件等?优势:优势:利用经验做合理判断和修正,适合金融市场 算法介绍贝叶斯?理论:主观判断,新信息修正信念 贝叶斯定理在金融中的应用?举例:风险
11、管理举例:风险管理(企业违约概率,CDS市场价)市场信息+投资者主观判断 举例:反洗钱举例:反洗钱(西交大张成虎等)贝叶斯定理在金融中的应用?举例:风险管理(企业违约概率,C无监督学习(Unsupervised Learning)?特点:数据无标签,学习分布特征特点:数据无标签,学习分布特征?两类:两类:?聚类(K-means、层次聚类、谱聚类)分成集群(簇),使集群内部有较高的相似性,分成集群(簇),使集群内部有较高的相似性,而集群之间相似度较低而集群之间相似度较低?降维(因子分析、PCA、ICA)在众多变量或指标中提取具有代表性的特征(因在众多变量或指标中提取具有代表性的特征(因子或因子组
12、合)子或因子组合)例如:在多资产组合中,识别出如动量、价值、波动性、流动性等主要驱动因素。无监督学习(U n s u p e r v i s e d L e a r n i n g)?聚类算法K-means?步骤:步骤:1、选择K个初始中心点 2、计算cost,组成簇 3、计算簇内所有点的均值作为新的聚类中心重复上面步骤直至聚类稳定。?优点:优点:逻辑清晰、高速?局限:局限:需给定K和初始中心点初始中心点 聚类算法K-m e a n s?步骤:1、选择K 个初始中心点聚类在金融中的应用?举例:股票分析(流通市值、波动率)聚类在金融中的应用?举例:股票分析(流通市值、波动率)聚类在金融中的应用?
13、股票、基金筛选、资产配置股票、基金筛选、资产配置 聚类 例如:资产分层聚类,投资组合风险分散化?选股准备(提取主要因子)选股准备(提取主要因子)降维?常用的Barra多因子模型 聚类在金融中的应用?股票、基金筛选、资产配置聚类 半监督学习(Semi-Supervised Learning)?问题:问题:少量标注样本 大量未标注样本?方法:方法:?半监督SVM?标签传播?PU学习等?应用场景应用场景?产品推荐 半监督学习(S e m i-S u p e r v i s e d L e a r n i n g主动学习(Active Learning)?针对问题针对问题:标注样本少?思想:思想:主动
14、向oracle获得标注信息?获得哪些样本的标注?获得哪些样本的标注?需设计查询函数Q?什么是有用的样本?什么是有用的样本??不确定(uncertainty)?差异性(diversity)?优点优点:快速提高模型性能 主动学习(A c t i v e L e a r n i n g)?针对问题:标注主动学习在金融中的应用?金融反欺诈中的应用 主动学习在金融中的应用?金融反欺诈中的应用 迁移学习?问题:问题:源任务 VS 目标任务 大量标签 VS 少量标签?目的:目的:利用源领域数据提高相关利用源领域数据提高相关 目标领域的建模性能。目标领域的建模性能。说明说明 归纳式归纳式 直推式直推式 无监督
15、无监督 基于示例 基于特征?分类 基于相关性 通过调整 源领域的标签(辅助)和 目标领域标签的权重,协同训练得到目标模型。找到“好”特征 来减少源领域和目标领域之间的不同,能够降低分类、回归误差。发现源领域和目标领域之间的共享参数。建立源领域和目标领域之间的相关知识映射。基于参数/模型 迁移学习?问题:源任务 V S 目标任务 大量迁移学习在金融中的应用?应用场景应用场景?风控、反欺诈风控、反欺诈 精准营销模型 反欺诈模型?股票走势预测股票走势预测 状态之间的迁移?个性化推荐个性化推荐 电商推荐 金融产品推荐 迁移学习在金融中的应用?应用场景?风控、反欺诈 多示例学习(Multi-Instan
16、ce Learning)?问题:问题:示例 包 全部-至少一个+?目标:目标:预测新包的标记?方法:方法:三轴平行矩形(APR)算法 分为两步:监督学习,标记更新?应用:应用:生物制药、图像检索?金融中的应用?暂未发现金融中的应用?暂未发现 多示例学习(Mu l t i-I n s t a n c e L e a r n i n g)多标记学习(Multi-Label Learning)?问题问题:一个示例存在多个标记?举例:举例:?方法:方法:?问题转换法(二分类、标记排序、多分类)?算法适应法(改进常用监督算法)?金融应用场景?暂未发现金融应用场景?暂未发现 标签:标签:动作动作 科幻科幻
17、 奇幻奇幻 冒险冒险 多标记学习(Mu l t i-L a b e l L e a r n i n g)?问多示例多标记学习 多示例多标记学习 强化学习(Reinforcement Learning)?不依赖历史数据,延时标签?思想:思想:每次行动得到的反馈找到最优策略,使期望奖赏最大?Q学习学习,定义Q函数,找到使其最大的a?应用:应用:游戏、决策,现实状态复杂,研究刚起步 强化学习(R e i n f o r c e m e n t L e a r n i n g)强化学习在金融中的应用?应用领域应用领域 自动化交易自动化交易(交易-游戏,奖励-利润)举例:J.P.Morgan的电子化交易
18、团队利用强化学习的算法开发了限价订单下单模块(LOPM),旨在最大限度及高效的(数秒到数分钟内)降低滑移,完成任务 强化学习在金融中的应用?应用领域 自深度学习(Deep Learning)?本质本质 多层人工神经网络?优点:优点:?提取特征更高效?更好捕捉非线性关系?模型随数据增加不断改善 深度学习(D e e p L e a r n i n g)?本质 多深度学习(续)?不同算法的差别来自层的组成结构及层与层之间的关系不同算法的差别来自层的组成结构及层与层之间的关系?DNN(深度神经网络)?RNN(循环神经网络)?LSTM(长短期记忆网络)?CNN(卷积神经网络)卷积+池化(捕捉信息+降维
19、)深度学习(续)?不同算法的差别来自层的组成结构及层与层之间深度学习在金融中的应用?目前应用有限目前应用有限?原因原因?自动提取的特征不如分析逻辑提取的因子?数据量积累不多,容易过拟合?金融数据环境变化快、信噪比低?举例:辅助投资举例:辅助投资 采用语音识别技术、历史交易数据分析 智能投资顾问智能投资顾问(美国智能投顾公司 Wealthfront 和Betterment)深度学习在金融中的应用?目前应用有限?原因?自动提取的广度学习(Broad Learning)?大数据大数据 复杂性、大规模、非结构化数据?数据融合数据融合 Velocity、Volume、Veracity 和和 Variet
20、y 结构化、非结构化(新闻、论坛)?举例:举例:借贷风险、股票评价 全方位画像全方位画像?技术:技术:?自然语言处理?信息网络挖掘?知识图谱?社交网络 广度学习(B r o a d L e a r n i n g)?大数据 自然语言处理技术(NLP)?应用:辅助投资应用:辅助投资 舆情分析、智能投顾、自动生成报告 自然语言处理技术(N L P)?应用:辅助投资 总结:潜在应用场景?估价 选股 择时 个性化服务 黑天鹅 投资风格 产品推荐 总结:潜在应用场景?估价 选股 择时 个性化应用(1)估价?通过特定技术指标与数学模型,估算出股票在未来一段通过特定技术指标与数学模型,估算出股票在未来一段时
21、期的相对价格。时期的相对价格。?业绩*此行业的一般市盈率?净资产*此行业一般市净率。IT业这类企业不合适?举例:举例:KNN方法发现被低估的股票 应用(1)估价?通过特定技术指标与数学模型,估算出股票应用(2)选股?利用数量化的方法选择股票组合,期望该股票组合能够获得超越基准收益率的投资行为?多因子模型是应用最广泛的一种选股模型,基本原理是采用一系列的因子作为选股标准,满足这些因子的股票则被买入,不满足的则卖出。应用(2)选股?利用数量化的方法选择股票组合,期望该股应用(3)择时?利用某种方法来判断大势的走势情况,是上涨还是下跌或者是盘整。?收益率最高的一种交易方式?SVM择时就是利用SVM技
22、术进行大盘趋势的模式识别,将大盘区分为几个明显的模式,从而找出其中的特征,然后利用历史数据学习的模型来预测未来的趋势。应用(3)择时?利用某种方法来判断大势的走势情况,是上应用(4)个性化服务?智能投顾(个性化、细致)?便利、低门槛和互联网化的理财方式?自动生成信息简报?AI取代:大量易标准化、重复性、不具独创性的工作取代:大量易标准化、重复性、不具独创性的工作 如:如:清算、交收、估值、对账 做多因子模型的投资经理?也很可能被AI取代 应用(4)个性化服务?智能投顾(个性化、细致)?便利应用(5)黑天鹅事件?实时监测实时监测?预测可能事件预测可能事件 例如:通过抓取 Twitter数据,预测
23、地域疾病突发?历史事件的数据模式历史事件的数据模式 例如:美国的Kensho公司 自动分析报表?潜在研究潜在研究?社会影响力分析?信息传播?基于机器学习技术的社会网络分析与挖掘基于机器学习技术的社会网络分析与挖掘 应用(5)黑天鹅事件?实时监测?预测可能事件 应用(6)投资风格学习?投资经理风格投资经理风格?积极性、消极型积极性、消极型?成长型、价值型、混合型成长型、价值型、混合型?大盘型、中盘型、小盘型大盘型、中盘型、小盘型?技术分析型、基本面分析型技术分析型、基本面分析型?头上型、底下型头上型、底下型 应用(6)投资风格学习?投资经理风格?积应用(7)产品推荐?面向产品面向产品 面向客户面
24、向客户?协同过滤协同过滤 1.分析各个用户对item的评价 2.依据评价计算用户相似度;3.选出与当前用户最相似的N个用户;4.将这N个用户评价最高并且当前用户又没有浏览过的 item推荐给当前用户。?基于内容的方法基于内容的方法?基于机器学习模型的方法基于机器学习模型的方法 应用(7)产品推荐?面向产品 面向如下场景应用何种机器学习方法?问题问题 给定输入变量,预测资产价格方向 找出资产价格的驱动因素 一个事件是否会发生/发生的概率 一篇文章的情感色彩和主题 识别图像中的对象 发现一个对象的profile 金融实例金融实例 使用技术指标对于对应的指数进行择时 行业中有效因子的筛选 高送转事件
25、的预测 基于大量数据预测波动率 公司公告的舆情分析 法人签名识别 产品推荐系统 机器学习方法机器学习方法 SVM、Logistic回归、Lasso回归 PCA、ICA SVM、决策树、Logistic回归 NLP技术、多标签分类 卷积神经网络 协同过滤 如下场景应用何种机器学习方法?问题 给定输入变量,预测资产AI投研领域?分类分类?利用利用传统机器学习传统机器学习算法,预测交易策略算法,预测交易策略?运用运用NLPNLP、SNAPSNAP等,处理非结构化数据,改进模型等,处理非结构化数据,改进模型?引入引入知识图谱知识图谱,提高模型,提高模型 A I 投研领域?分类?利用传统机器学习算法,预测交易策略 AI对金融领域的影响?1、改变销售渠道、改变销售渠道 基金公司直销和第三方机构代销 VS 智能机器人帮助用户制定更适合的基金组合,并提供风险评估等服务。?2、提高效率、提高效率 人工智能的计算速度较快、拥有丰富的知识库,快速提供解决方案。此外,智能服务能够同时服务多个用户。?3、降低风险、降低风险 通过对大量新闻和历史交易数据进行学习之后,可以得出特定新闻给市场带来的风险?4、提供个性化服务、提供个性化服务 基金经理的经验和判断 vs 数据建模投资者需求 A I 对金融领域的影响?1、改变销售渠道 基金公司人工智能机器学习及在金融行业应用最新P P T 课件