1、第第1章章 机器学习概述机器学习概述n熟悉机器学习的概念。熟悉机器学习的概念。n理解人工智能、机器学习、深度学习三者之间的关系。理解人工智能、机器学习、深度学习三者之间的关系。n掌握机器学习的三个基本要素,了解损失函数、代价函数和目掌握机器学习的三个基本要素,了解损失函数、代价函数和目标函数之间的区别和联系。标函数之间的区别和联系。n了解数据清洗、归一化(标准化)等处理方法。了解数据清洗、归一化(标准化)等处理方法。n掌握模型交叉验证法的步骤,熟悉混淆矩阵、分类准确率、错掌握模型交叉验证法的步骤,熟悉混淆矩阵、分类准确率、错误率、查准率、查全率、误率、查准率、查全率、F1-score、ROC曲
2、线及曲线及ROC 曲线下曲线下面积(面积(AUC)等常用的分类模型评估指标及应用场合。)等常用的分类模型评估指标及应用场合。n理解模型欠拟合与过拟合的概念,掌握L1范数和L2范数正则化的方法 本章学习目标本章学习目标n1.1 机器学习的概念与基本术语机器学习的概念与基本术语n1.2 人工智能、机器学习、深度学习三者之间的关系人工智能、机器学习、深度学习三者之间的关系n1.3 机器学习的三个基本要素机器学习的三个基本要素n1.4 机器学习模型的分类机器学习模型的分类n1.5 数据预处理数据预处理n1.6 模型选择与评估模型选择与评估第第1章章 机器学习概述机器学习概述1.1 机器学习的概念与基本
3、术语机器学习的概念与基本术语1.1.1 机器学习的概念机器学习的概念n机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。(Langley,1996年)n机器学习是对能通过经验自动改进的计算机算法的研究。(Tom Mitchell,1997年)n机器学习是用样本数据或以往的经验对计算机编程以优化性能指标。(Alpaydin,2004年)1.1 机器学习的概念与基本术语机器学习的概念与基本术语1.1.2 基本术语基本术语n特征(Feature)n属性(Attribute)n特征向量(Feature Vector)n监督式学习(Supervise
4、d Learning)n标签(Label)n样本(Example)n实例(Instance)n回归(Regression)n分类(Classification)n标注(Tagging)1.1 机器学习的概念与基本术语机器学习的概念与基本术语1.1.2 基本术语基本术语n数据集(Data Set)n训练集(Training Set)n测试集(Test Set)n独立同分布(Independently and Identically Distributed,i.i.d)n模型(Model)n训练(Training)n假设(Hypothesis)n学习器(Learner)n输入空间(Input Sp
5、ace)n输出空间(Output Space)n假设空间(Hypothesis Space)1.1 机器学习的概念与基本术语机器学习的概念与基本术语1.1.3 机器学习与人类学习的类比机器学习与人类学习的类比1.1 机器学习的概念与基本术语机器学习的概念与基本术语1.1.3 机器学习与人类学习的类比机器学习与人类学习的类比婴儿通过识图卡或者实物学会了认识物体机器学习的一个形象描述1.1 机器学习的概念与基本术语机器学习的概念与基本术语机器学习机器学习的主要应用的主要应用领域领域n数据挖掘数据挖掘n计算机视觉计算机视觉n自然语言处理自然语言处理n生物特征识别生物特征识别n搜索引擎搜索引擎n医学诊
6、断医学诊断n信用卡欺诈检测信用卡欺诈检测n证券市场分析证券市场分析nDNA序列测序序列测序n语音和手写识别语音和手写识别n机器人机器人1.1 机器学习的概念与基本术语机器学习的概念与基本术语n深蓝是并行计算的电脑系统,建深蓝是并行计算的电脑系统,建基于基于RS/6000 SP,另加上,另加上480颗特颗特别制造的别制造的VLSI象棋芯片。下棋程象棋芯片。下棋程式以式以C语言写成,运行语言写成,运行AIX 操作操作系统。系统。1997年版本的深蓝运算速年版本的深蓝运算速度为每秒度为每秒2亿步棋,是其亿步棋,是其1996年版年版本的本的2倍。倍。1997年年 6月,深蓝在世月,深蓝在世界超级电脑中
7、排名第界超级电脑中排名第259位,计算位,计算能力为能力为11.38 gigaflops。1.1 机器学习的概念与基本术语机器学习的概念与基本术语n1997年,年,IBM深蓝击败卡斯帕罗夫深蓝击败卡斯帕罗夫Text to speech and speech recognition1.1 机器学习的概念与基本术语机器学习的概念与基本术语语音识别1.1 机器学习的概念与基本术语机器学习的概念与基本术语自动驾驶1.1 机器学习的概念与基本术语机器学习的概念与基本术语图像生成1.1 机器学习的概念与基本术语机器学习的概念与基本术语机器翻译1.1 机器学习的概念与基本术语机器学习的概念与基本术语推荐系统
8、1.1 机器学习的概念与基本术语机器学习的概念与基本术语n1.1 机器学习的概念与基本术语机器学习的概念与基本术语n1.2 人工智能、机器学习、深度学习三者之间的关系人工智能、机器学习、深度学习三者之间的关系n1.3 机器学习的三个基本要素机器学习的三个基本要素n1.4 机器学习模型的分类机器学习模型的分类n1.5 数据预处理数据预处理n1.6 模型选择与评估模型选择与评估第第1章章 机器学习概述机器学习概述1.2人工智能、机器学习、深度学习三者之间的关系人工智能、机器学习、深度学习三者之间的关系人工智能:为机器赋予人类的智能机器学习:人工智能的核心深度学习:机器学习的一个分支n1.1 机器学
9、习的概念与基本术语机器学习的概念与基本术语n1.2 人工智能、机器学习、深度学习三者之间的关系人工智能、机器学习、深度学习三者之间的关系n1.3 机器学习的三个基本要素机器学习的三个基本要素n1.4 机器学习模型的分类机器学习模型的分类n1.5 数据预处理数据预处理n1.6 模型选择与评估模型选择与评估第第1章章 机器学习概述机器学习概述1.3 机器学习的三个基本要素机器学习的三个基本要素1.3.1 模型模型模模型型概率模型(概率模型(条件概率分布)非概率模型(非概率模型(决策函数)线性模型线性模型非线性模型非线性模型1.3 机器学习的三个基本要素机器学习的三个基本要素1.3.2 学习准则(策
10、略)学习准则(策略)n损失函数损失函数(Loss Function):度量单样本预测的错误程度,损失函数值越小,模型就越好。n代价函数代价函数(Cost Function):度量全部样本集的平均误差。常用的代价函数包括均方误差、均方根误差、平均绝对误差等。n目标函数目标函数(Objective Function):最终要优化的函数,包括代价函数和正则化函数。1.3 机器学习的三个基本要素机器学习的三个基本要素n损失函数损失函数(Loss Function)n0-1损失函数损失函数n平方损失函数平方损失函数n绝对损失函数绝对损失函数1.3 机器学习的三个基本要素机器学习的三个基本要素n损失函数损
11、失函数(Loss Function)n对数损失函数对数损失函数n交叉熵损失函数交叉熵损失函数n合页损失函数合页损失函数1.3 机器学习的三个基本要素机器学习的三个基本要素1.3.3 优化算法优化算法n梯度下降法梯度下降法(Gradient Descent,GD)n随机梯度下降随机梯度下降(Stochastic Gradient Descent,SGD)n小批量梯度下降小批量梯度下降(Mini-Batch Gradient Descent,MBGD)n牛顿法牛顿法n拟牛顿法拟牛顿法n坐标下降法坐标下降法n1.1 机器学习的概念与基本术语机器学习的概念与基本术语n1.2 人工智能、机器学习、深度学
12、习三者之间的关系人工智能、机器学习、深度学习三者之间的关系n1.3 机器学习的三个基本要素机器学习的三个基本要素n1.4 机器学习模型的分类机器学习模型的分类n1.5 数据预处理数据预处理n1.6 模型选择与评估模型选择与评估第第1章章 机器学习概述机器学习概述1.4 机器学习模型的分类机器学习模型的分类1.4.1 按任务类型分类按任务类型分类n回归回归(Regression)n分类分类(Classification)n聚类聚类(Clustering)n维数约简维数约简(Dimensionality Reduction)1.4 机器学习模型的分类机器学习模型的分类1.4.1 按按学习方式学习方
13、式分类分类n监督式监督式学习学习、监督学习监督学习(Supervised Learning)n利用利用一组带一组带标标签签样本样本调整模型参数,提升模型性能的调整模型参数,提升模型性能的学习方式学习方式。n非监督式非监督式学习学习、无、无监督学习监督学习(Unsupervised Learning)n通过通过比较样本之间的某种联系实现对样本的比较样本之间的某种联系实现对样本的数据分析数据分析。n无监督学习最大特点是学习算法的输入是无无监督学习最大特点是学习算法的输入是无标标签签样本。样本。n强化学习强化学习(Reinforcement Learning)n根据根据反馈信息来调整机器行为以实现自
14、动决策的一种机器学习方反馈信息来调整机器行为以实现自动决策的一种机器学习方式。式。1.4 机器学习模型的分类机器学习模型的分类1.4.1 按按学习方式学习方式分类分类1.4 机器学习模型的分类机器学习模型的分类1.4.1 按按学习方式学习方式分类分类1.4 机器学习模型的分类机器学习模型的分类1.4.1 按按学习方式学习方式分类分类n监督式学习监督式学习(Supervised Learning)1.4 机器学习模型的分类机器学习模型的分类1.4.1 按按学习方式学习方式分类分类n强化强化学习学习(Reinforcement Learning)强化学习主要由智能体智能体和环境环境两个部分组成。智
15、能体是行为的实施者,由基于环境信息的评价函数对智能体的行为做出评价,若智能体的行为正确,则由相应的回报函数给予智能体正向反馈信息以示奖励,反之则给予智能体负向反馈信息以示惩罚。n1.1 机器学习的概念与基本术语机器学习的概念与基本术语n1.2 人工智能、机器学习、深度学习三者之间的关系人工智能、机器学习、深度学习三者之间的关系n1.3 机器学习的三个基本要素机器学习的三个基本要素n1.4 机器学习模型的分类机器学习模型的分类n1.5 数据预处理数据预处理n1.6 模型选择与评估模型选择与评估第第1章章 机器学习概述机器学习概述1.5 数据预处理数据预处理n数据清洗数据清洗(Data Clean
16、ing)n缺失数据的处理缺失数据的处理n离群点数据的处理离群点数据的处理n冗余、重复数据的处理冗余、重复数据的处理n数据类型转换数据类型转换n构建新的变量构建新的变量哑变量哑变量(Dummy Variable)n特征数据的归一化特征数据的归一化n线性归一化线性归一化或或最小最大归一化最小最大归一化(Min-Max Normalization)n零均值归一化零均值归一化(Z-score Normalization)n1.1 机器学习的概念与基本术语机器学习的概念与基本术语n1.2 人工智能、机器学习、深度学习三者之间的关系人工智能、机器学习、深度学习三者之间的关系n1.3 机器学习的三个基本要素
17、机器学习的三个基本要素n1.4 机器学习模型的分类机器学习模型的分类n1.5 数据预处理数据预处理n1.6 模型选择与评估模型选择与评估第第1章章 机器学习概述机器学习概述1.6 模型选择与评估模型选择与评估n数据清洗数据清洗(Data Cleaning)n缺失数据的处理缺失数据的处理n离群点数据的处理离群点数据的处理n冗余、重复数据的处理冗余、重复数据的处理n数据类型转换数据类型转换n构建新的变量构建新的变量哑变量哑变量(Dummy Variable)n特征数据的归一化特征数据的归一化n线性归一化线性归一化或或最小最大归一化最小最大归一化(Min-Max Normalization)n零均值
18、归一化零均值归一化(Z-score Normalization)1.6.1 数据集的划分数据集的划分n训练集训练集(Training Set)n测试集测试集(Test Set)n验证集验证集(Validation Set)1.6 模型选择与评估模型选择与评估1.6.2 模型选择与交叉验证法模型选择与交叉验证法n简单简单交叉交叉验证验证nK-折折交叉验证交叉验证n留一交叉验证留一交叉验证n留留K交叉验证交叉验证1.6 模型选择与评估模型选择与评估1.6.2 模型选择与交叉验证法模型选择与交叉验证法1.6 模型选择与评估模型选择与评估图1-6 10-折交叉验证示意图1.6.3 模型的性能度量模型的
19、性能度量n混淆矩阵混淆矩阵(Confusion Matrix)n分类准确率分类准确率(Accuracy)n错误率错误率(Error Rate)n查准率查准率(Precision)n查全率查全率(Recall)nP-R曲线曲线nF1值值(F1-Score)n受试者工作特征受试者工作特征(Receiver Operating Characteristic,ROC)曲线曲线nROC 曲线下面积曲线下面积(Area Under the ROC Curve,AUC)1.6 模型选择与评估模型选择与评估分类模型的评价指标分类模型的评价指标n混淆混淆矩阵矩阵(Confusion Matrix)n分类分类准确
20、率准确率(Accuracy)n错误率错误率(Error Rate)1.6 模型选择与评估模型选择与评估n查全率查全率(Recall)n查准率查准率(Precision)nP-R曲线曲线1.6 模型选择与评估模型选择与评估nF1值值(F1-Score)n受试者受试者工作特征工作特征(Receiver Operating Characteristic,ROC)曲线曲线nROC 曲线下面积曲线下面积(Area Under the ROC Curve,AUC)1.6 模型选择与评估模型选择与评估1.6.4 欠拟合与过拟合欠拟合与过拟合1.6 模型选择与评估模型选择与评估1.6.5 偏差与方差偏差与方差1.6 模型选择与评估模型选择与评估1.6.6 模型的正则化模型的正则化1.6 模型选择与评估模型选择与评估Question?
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。