1、第十三章 无监督学习概论 无监督学习 使用无标注数据 学习或训练,由特征向量组成 无监督学习的模型是函数 , 条件概率分布 , 或条件概率分布 假设训练数据集由N个样本组成,每个样本是一个M维向量。训练 数据可以由一个矩阵表示,每一行对应一个特征,每一列对应一 个样本 无监督学习 无监督学习的基本想法是对给定数据(矩阵数据)进行某种“压 缩”,从而找到数 据的潜在结构。假定损失最小的压缩得到的 结果就是最本质的结构。 考虑发掘数据的纵向结构, 把相似的样本聚到同类, 即对数据进行聚类 无监督学习 无监督学习的基本想法是对给定数据(矩阵数据)进行某种“压 缩”,从而找到数 据的潜在结构。假定损失
2、最小的压缩得到的 结果就是最本质的结构。 考虑发掘数据的横向结构, 把高维空间的向量转换为 低维空间的向量, 即对数据进行降维。 无监督学习 无监督学习的基本想法是对给定数据(矩阵数据)进行某种“压 缩”,从而找到数 据的潜在结构。假定损失最小的压缩得到的 结果就是最本质的结构。 同时考虑发掘数据的 纵向与横向结构,假设数据由含有 隐式结构的概率模型生成得到, 从数据中学习该概率模型。 聚类 聚类(clustering)是将样本集合中相似的样本(实例)分配到 相同的类,不相似的样本分配到不同的类。 聚类时,样本通常是欧氏空间中的向量,类别不是事先给定, 而是从数据中自动发现,但类别的个数通常是
3、事先给定的。样本 之间的相似度或距离 由应用决定。 如果一个样本只能属于一个类,则称为硬聚类(hard clustering) 如果一个样本可以属于多个类,则称为软聚类(soft clustering) 聚类 硬聚类时,每一个样本属于某一类 软聚类时,每一个样本依概率属于每一个类 降维 降维(dimensionality reduction)是将训练数据中的样本(实 例)从高维空间转换到低维空间。 假设样本原本存在于低维空间,或者近似地存在于低维空间,通 过降维则可以更好地表示样本数据的结构,即更好地表示样本之 间的关系。 高维空间通常是高维的欧氏空间,而低维空间是低维的欧氏空间 或者流形(m
4、anifold)。 从高维到低维的降维中,要保证样本中的信息损失最小。 降维 降维有线性的降维和非线性的降维。 二维空间的样本存在于一条直线的附近,可以将样本从二维空间 转换到一维空间。通过降维可以更好地表示样本之间的关系。 降维 假设输入空间是欧氏空间 ,输出空间也是欧氏空间 ,后者的维数低于前者的维数。降维的模型是函数 其中 是样本的高维向量, 是样本的低维向量, 是参数。 函数可以是线性函数也可以是非线性函数。 降维的过程就是学习降维模型的过程。降维时,每一个样本从高 维向量转换为低维向量 。 概率模型估计 假设训练数据由一个概率模型生成,由训练数据学习概率模型的 结构和参数。 概率模型
5、的结构类型, 或者说概率模型的集合事先给定,而模 型的具体结构与参数从数据中自动学习。学习的目标是找到最有 可能生成数据的结构和参数。 概率模型包括混合模型、概率图模型等。 概率图模型又包括有向图模型和无向图模型。 概率模型估计 假设数据由高斯混合模型生成,学习的目标是估计这个模型的参 数。 概率模型估计 概率模型表示为条件概率分布 随机变量x表示观测数据,可以是连续变量也可以是离散变量 随机变量z表示隐式结构,是离散变量 随机变量 表示参数 模型是混合模型时,z表示成分的个数 模型是概率图模型时,z表示图的结构 概率模型估计 概率模型的一种特殊情况是隐式结构不存在,即满足 这时条件 概率分布
6、估计变成概率分布估计,只要估计分布 的参数即可。 概率模型估计 概率模型估计是从给定的训练数据 中学习模型 的结构和参数,计算出模型相关的任意边缘分布和条件 分布。 注意随机变量x 是多元变量,甚至是高维多元变量 软聚类也可以看作是概率模型估计问题。根据贝叶斯公式 假设先验概率服从均匀分布,只需要估计条件概率分布 。 这样,可以通过对条 件概率分布 的估计进行软聚类 无监督学习三要素 模型 函数 ,条件概率分布 ,或条件概率分布 策略 目标函数的优化 算法 迭代算法,通过迭代达到对目标函数的最优化 聚类 有5个样本A、 B、 C 、 D、 E,每个样本有二维特征x1, X2。 通过聚类算法,可
7、以将样本分配到两个类别中。 聚类 假设用k均值聚类,k=2。开始可以取 任意两点作为两个类的中心 依据样本与类中心的欧氏距离的大小 将样本分配到两个类中 然后计算两个类中样本的均值,作为 两个类的新的类中心 重复以上操作,直到两类不再改变 最后得到聚类结果,A、 B、 C为一个类, D、E为另一个类。 降维 给出一个简单的数据集合。有14个样本A、 B、 C、 D等,每个 样本有9 维特征 。 降维 由于数据是高维(多变量)数据,很难观察变量的样本区分能力, 也很难观察样本之间的关系。 对数据进行降维,如主成分分析, 就可以更直接地分析以上问题。 对样本集合进行降维(主成分分析), 结果在新的
8、二维实数空间中, 有二维新的特征y1, y2, 14个样本分布在不同位置。 通过降维,可以发现样本可以分为三个类, 二维新特征由原始特征定义。 话题分析 话题分析是文本分析的一种技术。 给定一个文本集合,话题分析旨在发现文本集合中每个文本的话 题,而话题由单词的集合表示。 注意,这里假设有足够数量的文本, 如果只有一个文本或几个 文本,是不能做话题分析的。 话题分析可以形式化为概率模型估计问题,或降维问题。 话题分析 给出一个文本数据集合。有6个文本,6个单词,表中数字表示单 词在文 本中的出现次数。 话题分析 对数据进行话题分析,如LDA分析,得到由单词集合表示的话题, 以及由话题集合表示的
9、文本。 具体地话题表示为单词的概率分布,文本表示为话题的概率分布。 LDA是含有这些概率分布的模型。 图分析 图分析(graph analytics)的目的是发掘隐藏在图中的统计规 律或潜在结构。 PageRank算法是无监督学习方法,主要是发现有向图中的重要结 点。 给定一个有向图,定义在图上的随机游走即马尔可夫链。 随机游走者在有向图上随机跳转,到达一个结点后以等概率跳转 到链接出 去的结点,并不断持续这个过程。 PageRank算法就是求解该马尔可夫链的平稳分布的算法。 Page Rank 一个结点上的平稳概率表示该结点的重要性,称为该结点的 PageRank值。 被指向的结点越多,该结点的PageRank值就越大。 被指向的结点的PageRank值越大,该结点的PageRank值就越大。 PageRank值越大结点也就越重要。 PageRank的原理 上图是一个简单的有向图,有4个结点 A,B,C,D。 给定这个图,PageRank算法通过迭代求出结点的PageRank值。 PageRank的原理 首先, 对每个结点的概率值初始化,表示各个结点的到达概率, 假设是等概率的。 下一步, 各个结点的概率是上一步各个结点可能跳转到该结点 的概率之和。 不断迭代,各个结点的到达概率分布趋于平稳分布,也就是 PageRank值的分布。