1、半监督学习 前言 半监督聚类 半监督分类OUTLINE2010/10/282 机器学习的目的:h:Y=h(X)(X,Y):训练样本空间 Y 空集(未知)无监督学习 全部已知 有监督学习 只给了一部分半监督学习三种机器学习-12010/10/283 有监督学习 从已标注数据中学习 无监督学习 从未标注数据中学习 半监督学习 从标注数据和未标注数据中学习三种机器学习-22010/10/284 有监督分类 训练集,带标注数据 训练过程:得一模型(分类器)预测:用得到分类器对新样例分类 无监督聚类 相似个体聚集为一类 最小化类内的距离 最大化类间的距离三种机器学习-32010/10/285分类过程20
2、10/10/286聚类过程2010/10/287 结合标注数据和未标注数据 半监督分类 在标注数据上训练 开拓未标注的数据 不断迭代,最终得到一个更为精确的分类器 利用未标注数据,目标是分类 半监督聚类 利用标注数据来帮助在未标注数据上的聚类 利用标注数据作为约束,目标是聚类半监督学习2010/10/288 大规模的标注数据代价昂贵 常常需要人工标注 耗时 未标注数据很容易获得 领域 标注数据一般都是针对某个特定领域,换个领域就不适用了为什么要利用未标注数据2010/10/289 输入 未标注对象集,每个对象由一个特征集来描述 输出 K 个聚类的划分 目标 最小化类内相似度,最大化类间相似度
3、高内聚,低耦合半监督分类2010/10/2810 半监督 K-Means 标签传播 LP2010/10/2811半监督分类 Seeded K-Means 用已标注数据初始化各个聚类的中心,以后的过程中,已标注数据的标签信息可以改变 Constrained K-Means 已标注数据初始化各个聚类的中心,以后的过程中,已标注数据的标签信息不得改变半监督 K-MEANS2010/10/2812 1 随机选取 k 个样例,作为聚类的中心 2 对剩下的 n-k 个样例计算与 k 个中心的相似度,将其归于相似度最大的中心的那个聚类 3 重新计算各个聚类的中心 4 重复 2、3 步骤直至收敛一般的 K-M
4、EANS2010/10/2813SEEDED K-MEANS2010/10/2814SEEDED K-MEANS 例子-12010/10/2815SEEDED K-MEANS 例子-22010/10/2816SEEDED K-MEANS 例子-32010/10/2817SEEDED K-MEANS 例子-42010/10/2818SEEDED K-MEANS 例子-52010/10/2819CONSTRAINED K-MEANS2010/10/2820CONSTRAINED K-MEANS 例子-12010/10/2821CONSTRAINED K-MEANS 例子-22010/10/2822
5、CONSTRAINED K-MEANS 例子-32010/10/2823CONSTRAINED K-MEANS 例子-42010/10/2824CONSTRAINED K-MEANS 例子-52010/10/2825CONSTRAINED K-MEANS 例子-62010/10/2826CONSTRAINED K-MEANS 例子-72010/10/2827COP K-MEANS2010/10/2828 Seeded 与 Constrained K-Means:部分标注数据 COP K-Means:约束(Must-link 和 Connot-link)Constrained 和 COP K-M
6、eans 要求所有的约束都要满足 种子中如果包含了噪音,这种方法将不那么有效 Seeded K-Means 只是在第一步中使用种子得到各个聚类的中心 对种子中的噪音不敏感 实验结果表明半监督的 K-Means 优于传统的 K-Means比较2010/10/2829 标签传播 Label Propagation 假设:相似度越高的样例越有可能属于同一类 建立一个图 结点:所有的样例(标注+未标注)通过图中的边传递标签信息 不同的边有不同的权值,权值越大的边越容易传递标签信息标签传播2010/10/2830 图中每个结点代表一个样例 计算这个样例之间的相似度 wij 图中两个样例有标签,其他都没有
7、 怎样预测未标注结点的标签,借助于图?示例-12010/10/2831示例-22010/10/2832示例-32010/10/2833标签传播-12010/10/2834标签传播-22010/10/2835标签传播-32010/10/2836标签传播-42010/10/2837 利用少量标注数据来标注大量未标注数据 相似的样例有相同的的类标签半监督分类2010/10/2838问题描述-12010/10/2839问题描述-22010/10/2840问题描述-32010/10/2841 Bootstrapping Co-training半监督分类的几种算法2010/10/2842 最早的,也是最简
8、单的 也称作:self-teaching 或 self-trainingBOOTSTRAPPING2010/10/2843描述2010/10/2844SELF-TRAINING 过程2010/10/2845 在一些情况下所得到的数据特征是冗余的,我们可以在这些相对独立的特征集上训练得到两个或者更多的分类器 所得到的两个分类器接受对每个样例的分类 这样,我们可以利用未标注数据来约束两个分类器的训练过程CO-TRAINING2010/10/2846示例-12010/10/2847示例-22010/10/2848示例-32010/10/2849CO-TRAINING 过程-12010/10/2850
9、CO-TRAINING 过程-22010/10/2851条件独立2010/10/2852CO-TRAINING 过程2010/10/2853示例-12010/10/2854示例-22010/10/2855示例-32010/10/2856示例-42010/10/2857改进2010/10/2858怎样去训练每个分类器2010/10/2859INTUITION BEHIND CO-TRAINING2010/10/2860 半监督 EM Transductive SVM更多的半监督分类2010/10/2861p 经常不断地学习,你就什么都知道。你知道得越多,你就越有力量p Study Constantly,And You Will Know Everything.The More You Know,The More Powerful You Will Be写在最后谢谢大家荣幸这一路,与你同行ItS An Honor To Walk With You All The Way演讲人:XXXXXX 时 间:XX年XX月XX日