第13章无监督学习概论.pptx-资源下载-163文库_上传原创PPT模板、课件、文档赚钱

第13章无监督学习概论.pptx

1、第十三章无监督学习概论无监督学习使用无标注数据学习或训练，由特征向量组成无监督学习的模型是函数，条件概率分布，或条件概率分布假设训练数据集由N个样本组成，每个样本是一个M维向量。训练数据可以由一个矩阵表示，每一行对应一个特征，每一列对应一个样本无监督学习无监督学习的基本想法是对给定数据（矩阵数据）进行某种“压缩”，从而找到数据的潜在结构。假定损失最小的压缩得到的结果就是最本质的结构。考虑发掘数据的纵向结构，把相似的样本聚到同类，即对数据进行聚类无监督学习无监督学习的基本想法是对给定数据（矩阵数据）进行某种“压缩”，从而找到数据的潜在结构。假定损失

2、最小的压缩得到的结果就是最本质的结构。考虑发掘数据的横向结构，把高维空间的向量转换为低维空间的向量，即对数据进行降维。无监督学习无监督学习的基本想法是对给定数据（矩阵数据）进行某种“压缩”，从而找到数据的潜在结构。假定损失最小的压缩得到的结果就是最本质的结构。同时考虑发掘数据的纵向与横向结构，假设数据由含有隐式结构的概率模型生成得到，从数据中学习该概率模型。聚类聚类（clustering）是将样本集合中相似的样本（实例）分配到相同的类，不相似的样本分配到不同的类。聚类时，样本通常是欧氏空间中的向量，类别不是事先给定，而是从数据中自动发现，但类别的个数通常是

3、事先给定的。样本之间的相似度或距离由应用决定。如果一个样本只能属于一个类，则称为硬聚类（hard clustering) 如果一个样本可以属于多个类，则称为软聚类（soft clustering) 聚类硬聚类时，每一个样本属于某一类软聚类时，每一个样本依概率属于每一个类降维降维（dimensionality reduction）是将训练数据中的样本（实例）从高维空间转换到低维空间。假设样本原本存在于低维空间，或者近似地存在于低维空间，通过降维则可以更好地表示样本数据的结构，即更好地表示样本之间的关系。高维空间通常是高维的欧氏空间，而低维空间是低维的欧氏空间或者流形（m

4、anifold)。从高维到低维的降维中，要保证样本中的信息损失最小。降维降维有线性的降维和非线性的降维。二维空间的样本存在于一条直线的附近，可以将样本从二维空间转换到一维空间。通过降维可以更好地表示样本之间的关系。降维假设输入空间是欧氏空间，输出空间也是欧氏空间，后者的维数低于前者的维数。降维的模型是函数其中是样本的高维向量，是样本的低维向量，是参数。函数可以是线性函数也可以是非线性函数。降维的过程就是学习降维模型的过程。降维时，每一个样本从高维向量转换为低维向量。概率模型估计假设训练数据由一个概率模型生成，由训练数据学习概率模型的结构和参数。概率模型

5、的结构类型，或者说概率模型的集合事先给定，而模型的具体结构与参数从数据中自动学习。学习的目标是找到最有可能生成数据的结构和参数。概率模型包括混合模型、概率图模型等。概率图模型又包括有向图模型和无向图模型。概率模型估计假设数据由高斯混合模型生成，学习的目标是估计这个模型的参数。概率模型估计概率模型表示为条件概率分布随机变量x表示观测数据，可以是连续变量也可以是离散变量随机变量z表示隐式结构，是离散变量随机变量表示参数模型是混合模型时，z表示成分的个数模型是概率图模型时，z表示图的结构概率模型估计概率模型的一种特殊情况是隐式结构不存在，即满足这时条件概率分布

6、估计变成概率分布估计，只要估计分布的参数即可。概率模型估计概率模型估计是从给定的训练数据中学习模型的结构和参数，计算出模型相关的任意边缘分布和条件分布。注意随机变量x 是多元变量，甚至是高维多元变量软聚类也可以看作是概率模型估计问题。根据贝叶斯公式假设先验概率服从均匀分布，只需要估计条件概率分布。这样，可以通过对条件概率分布的估计进行软聚类无监督学习三要素模型函数，条件概率分布，或条件概率分布策略目标函数的优化算法迭代算法，通过迭代达到对目标函数的最优化聚类有5个样本A、 B、 C 、 D、 E，每个样本有二维特征x1, X2。通过聚类算法，可

7、以将样本分配到两个类别中。聚类假设用k均值聚类，k=2。开始可以取任意两点作为两个类的中心依据样本与类中心的欧氏距离的大小将样本分配到两个类中然后计算两个类中样本的均值，作为两个类的新的类中心重复以上操作，直到两类不再改变最后得到聚类结果，A、 B、 C为一个类， D、E为另一个类。降维给出一个简单的数据集合。有14个样本A、 B、 C、 D等，每个样本有9 维特征。降维由于数据是高维（多变量）数据，很难观察变量的样本区分能力，也很难观察样本之间的关系。对数据进行降维，如主成分分析，就可以更直接地分析以上问题。对样本集合进行降维（主成分分析），结果在新的

8、二维实数空间中，有二维新的特征y1, y2, 14个样本分布在不同位置。通过降维，可以发现样本可以分为三个类, 二维新特征由原始特征定义。话题分析话题分析是文本分析的一种技术。给定一个文本集合，话题分析旨在发现文本集合中每个文本的话题，而话题由单词的集合表示。注意，这里假设有足够数量的文本，如果只有一个文本或几个文本，是不能做话题分析的。话题分析可以形式化为概率模型估计问题，或降维问题。话题分析给出一个文本数据集合。有6个文本，6个单词，表中数字表示单词在文本中的出现次数。话题分析对数据进行话题分析，如LDA分析，得到由单词集合表示的话题，以及由话题集合表示的

9、文本。具体地话题表示为单词的概率分布，文本表示为话题的概率分布。 LDA是含有这些概率分布的模型。图分析图分析（graph analytics）的目的是发掘隐藏在图中的统计规律或潜在结构。 PageRank算法是无监督学习方法，主要是发现有向图中的重要结点。给定一个有向图，定义在图上的随机游走即马尔可夫链。随机游走者在有向图上随机跳转，到达一个结点后以等概率跳转到链接出去的结点，并不断持续这个过程。 PageRank算法就是求解该马尔可夫链的平稳分布的算法。 Page Rank 一个结点上的平稳概率表示该结点的重要性，称为该结点的 PageRank值。被指向的结点越多，该结点的PageRank值就越大。被指向的结点的PageRank值越大，该结点的PageRank值就越大。 PageRank值越大结点也就越重要。 PageRank的原理上图是一个简单的有向图，有4个结点 A,B,C,D。给定这个图，PageRank算法通过迭代求出结点的PageRank值。 PageRank的原理首先，对每个结点的概率值初始化，表示各个结点的到达概率，假设是等概率的。下一步，各个结点的概率是上一步各个结点可能跳转到该结点的概率之和。不断迭代，各个结点的到达概率分布趋于平稳分布，也就是 PageRank值的分布。

邮箱/手机：
温馨提示：	系统将以此处填写的邮箱或者手机号生成账号和密码，方便再次下载。如填写123，账号和密码都是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

第13章 无监督学习概论.pptx