ImageVerifierCode 换一换
格式:PPTX , 页数:27 ,大小:1.15MB ,
文档编号:1107930      下载积分:2.5 文币
快捷下载
登录下载
邮箱/手机:
温馨提示:
系统将以此处填写的邮箱或者手机号生成账号和密码,方便再次下载。 如填写123,账号和密码都是123。
支付方式: 支付宝    微信支付   
验证码:   换一换

优惠套餐
 

温馨提示:若手机下载失败,请复制以下地址【https://www.163wenku.com/d-1107930.html】到电脑浏览器->登陆(账号密码均为手机号或邮箱;不要扫码登陆)->重新下载(不再收费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录  
下载须知

1: 试题类文档的标题没说有答案,则无答案;主观题也可能无答案。PPT的音视频可能无法播放。 请谨慎下单,一旦售出,概不退换。
2: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
3: 本文为用户(淡淡的紫竹语嫣)主动上传,所有收益归该用户。163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

1,本文(第13章 无监督学习概论.pptx)为本站会员(淡淡的紫竹语嫣)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!

第13章 无监督学习概论.pptx

1、第十三章 无监督学习概论 无监督学习 使用无标注数据 学习或训练,由特征向量组成 无监督学习的模型是函数 , 条件概率分布 , 或条件概率分布 假设训练数据集由N个样本组成,每个样本是一个M维向量。训练 数据可以由一个矩阵表示,每一行对应一个特征,每一列对应一 个样本 无监督学习 无监督学习的基本想法是对给定数据(矩阵数据)进行某种“压 缩”,从而找到数 据的潜在结构。假定损失最小的压缩得到的 结果就是最本质的结构。 考虑发掘数据的纵向结构, 把相似的样本聚到同类, 即对数据进行聚类 无监督学习 无监督学习的基本想法是对给定数据(矩阵数据)进行某种“压 缩”,从而找到数 据的潜在结构。假定损失

2、最小的压缩得到的 结果就是最本质的结构。 考虑发掘数据的横向结构, 把高维空间的向量转换为 低维空间的向量, 即对数据进行降维。 无监督学习 无监督学习的基本想法是对给定数据(矩阵数据)进行某种“压 缩”,从而找到数 据的潜在结构。假定损失最小的压缩得到的 结果就是最本质的结构。 同时考虑发掘数据的 纵向与横向结构,假设数据由含有 隐式结构的概率模型生成得到, 从数据中学习该概率模型。 聚类 聚类(clustering)是将样本集合中相似的样本(实例)分配到 相同的类,不相似的样本分配到不同的类。 聚类时,样本通常是欧氏空间中的向量,类别不是事先给定, 而是从数据中自动发现,但类别的个数通常是

3、事先给定的。样本 之间的相似度或距离 由应用决定。 如果一个样本只能属于一个类,则称为硬聚类(hard clustering) 如果一个样本可以属于多个类,则称为软聚类(soft clustering) 聚类 硬聚类时,每一个样本属于某一类 软聚类时,每一个样本依概率属于每一个类 降维 降维(dimensionality reduction)是将训练数据中的样本(实 例)从高维空间转换到低维空间。 假设样本原本存在于低维空间,或者近似地存在于低维空间,通 过降维则可以更好地表示样本数据的结构,即更好地表示样本之 间的关系。 高维空间通常是高维的欧氏空间,而低维空间是低维的欧氏空间 或者流形(m

4、anifold)。 从高维到低维的降维中,要保证样本中的信息损失最小。 降维 降维有线性的降维和非线性的降维。 二维空间的样本存在于一条直线的附近,可以将样本从二维空间 转换到一维空间。通过降维可以更好地表示样本之间的关系。 降维 假设输入空间是欧氏空间 ,输出空间也是欧氏空间 ,后者的维数低于前者的维数。降维的模型是函数 其中 是样本的高维向量, 是样本的低维向量, 是参数。 函数可以是线性函数也可以是非线性函数。 降维的过程就是学习降维模型的过程。降维时,每一个样本从高 维向量转换为低维向量 。 概率模型估计 假设训练数据由一个概率模型生成,由训练数据学习概率模型的 结构和参数。 概率模型

5、的结构类型, 或者说概率模型的集合事先给定,而模 型的具体结构与参数从数据中自动学习。学习的目标是找到最有 可能生成数据的结构和参数。 概率模型包括混合模型、概率图模型等。 概率图模型又包括有向图模型和无向图模型。 概率模型估计 假设数据由高斯混合模型生成,学习的目标是估计这个模型的参 数。 概率模型估计 概率模型表示为条件概率分布 随机变量x表示观测数据,可以是连续变量也可以是离散变量 随机变量z表示隐式结构,是离散变量 随机变量 表示参数 模型是混合模型时,z表示成分的个数 模型是概率图模型时,z表示图的结构 概率模型估计 概率模型的一种特殊情况是隐式结构不存在,即满足 这时条件 概率分布

6、估计变成概率分布估计,只要估计分布 的参数即可。 概率模型估计 概率模型估计是从给定的训练数据 中学习模型 的结构和参数,计算出模型相关的任意边缘分布和条件 分布。 注意随机变量x 是多元变量,甚至是高维多元变量 软聚类也可以看作是概率模型估计问题。根据贝叶斯公式 假设先验概率服从均匀分布,只需要估计条件概率分布 。 这样,可以通过对条 件概率分布 的估计进行软聚类 无监督学习三要素 模型 函数 ,条件概率分布 ,或条件概率分布 策略 目标函数的优化 算法 迭代算法,通过迭代达到对目标函数的最优化 聚类 有5个样本A、 B、 C 、 D、 E,每个样本有二维特征x1, X2。 通过聚类算法,可

7、以将样本分配到两个类别中。 聚类 假设用k均值聚类,k=2。开始可以取 任意两点作为两个类的中心 依据样本与类中心的欧氏距离的大小 将样本分配到两个类中 然后计算两个类中样本的均值,作为 两个类的新的类中心 重复以上操作,直到两类不再改变 最后得到聚类结果,A、 B、 C为一个类, D、E为另一个类。 降维 给出一个简单的数据集合。有14个样本A、 B、 C、 D等,每个 样本有9 维特征 。 降维 由于数据是高维(多变量)数据,很难观察变量的样本区分能力, 也很难观察样本之间的关系。 对数据进行降维,如主成分分析, 就可以更直接地分析以上问题。 对样本集合进行降维(主成分分析), 结果在新的

8、二维实数空间中, 有二维新的特征y1, y2, 14个样本分布在不同位置。 通过降维,可以发现样本可以分为三个类, 二维新特征由原始特征定义。 话题分析 话题分析是文本分析的一种技术。 给定一个文本集合,话题分析旨在发现文本集合中每个文本的话 题,而话题由单词的集合表示。 注意,这里假设有足够数量的文本, 如果只有一个文本或几个 文本,是不能做话题分析的。 话题分析可以形式化为概率模型估计问题,或降维问题。 话题分析 给出一个文本数据集合。有6个文本,6个单词,表中数字表示单 词在文 本中的出现次数。 话题分析 对数据进行话题分析,如LDA分析,得到由单词集合表示的话题, 以及由话题集合表示的

9、文本。 具体地话题表示为单词的概率分布,文本表示为话题的概率分布。 LDA是含有这些概率分布的模型。 图分析 图分析(graph analytics)的目的是发掘隐藏在图中的统计规 律或潜在结构。 PageRank算法是无监督学习方法,主要是发现有向图中的重要结 点。 给定一个有向图,定义在图上的随机游走即马尔可夫链。 随机游走者在有向图上随机跳转,到达一个结点后以等概率跳转 到链接出 去的结点,并不断持续这个过程。 PageRank算法就是求解该马尔可夫链的平稳分布的算法。 Page Rank 一个结点上的平稳概率表示该结点的重要性,称为该结点的 PageRank值。 被指向的结点越多,该结点的PageRank值就越大。 被指向的结点的PageRank值越大,该结点的PageRank值就越大。 PageRank值越大结点也就越重要。 PageRank的原理 上图是一个简单的有向图,有4个结点 A,B,C,D。 给定这个图,PageRank算法通过迭代求出结点的PageRank值。 PageRank的原理 首先, 对每个结点的概率值初始化,表示各个结点的到达概率, 假设是等概率的。 下一步, 各个结点的概率是上一步各个结点可能跳转到该结点 的概率之和。 不断迭代,各个结点的到达概率分布趋于平稳分布,也就是 PageRank值的分布。

侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|