1、机器学习专题桑克(sank):“一台计算机若不能进行学习,就不能说它具有智能”Simon(1983):学习就是系统中的变化,这种变化使系统比以前更有效地去做同样的工作。无统一的机器学习定义。机器学习是研究如何使用机器来模拟人类学习活动的一门学科。稍严格的提法是:ML是一门研究机器获得新知识和新技能,并识别现有知识的学问 1、机器学习的定义 人工智能主要是为了研究人的智能,模仿其机理将其应用于工程的科学。在这个过程中必然会问道:“机器怎样做才能像人类一样具有学习能力”。机器学习广泛应用于机器人、图像处理、语音识别、数据挖掘等领域。机器学习的发展有利于推动其他领域的发展。2、为什么要研究机器学习?
2、n预测难:学习后知识库发生了什么变化,系统功能的变化的预测。n归纳推理:是论证的前提支持结论但不确保结论的推理过程(演绎推理保真);而且,归纳的结论是无限多的,其中相当多是假的,给生成的知识带来不可靠性。n判断难:机器目前很难观察什么重要、什么有意义。3、实现的困难54 系统学习性能评价 分类精度分类精度:是否能够对输入的数据进行正确、精确的分类。解答的正确性和质量解答的正确性和质量:无论是用于分类的,还是解决问题的系统都有解答正确性问题。同时,正确性不一定保证有好的质量,好的质量包括:可读性、稳定性等多方面的因素。学习的速度学习的速度:学习速度是一个很重要的系统指标。它不仅仅影响系统的设计,
3、同时,影响系统的实现。一个很费时的学习方法,某种意义上也是很难实现的。因为,通常花费大量时间所进行的操作表现在对学习样本量的要求、系统空间的要求、系统硬件性能的要求上。6环境环境学习环节学习环节知识库知识库 执行环节执行环节学习是建立理论、形成假设和进行归纳推理的过程。n整个过程包括:信息的存储、知识的处理两部分 三、机器学习模型学习系统学习系统环境环境学习环节学习环节知识库知识库执行环节执行环节学习系统所感知学习系统所感知到的外界信息集到的外界信息集合,也是学习系合,也是学习系统的外界来源统的外界来源对环境提供的信对环境提供的信息进行整理、分息进行整理、分析归纳或类比,析归纳或类比,形成知识
4、,并将形成知识,并将其放入知识库其放入知识库存储经过加工后存储经过加工后的信息(即知识的信息(即知识)根据知识库去根据知识库去执行一系列任执行一系列任务,并将执行务,并将执行结果或执行过结果或执行过程中获得的信程中获得的信息反馈给学习息反馈给学习环节环节学习模型学习模型输入输入x输出输出约约束束条条件件机器学习的分类机器学习的分类根据是否需要已知类别的样本进行学习,机器学习可以分为两大类:有教师学习(监督学习)无教师学习(非监督学习和强化学习)监督学习监督学习supervised learningsupervised learning利用已知类别的样本去训练算法从而调整分类器的参数,这样的学习
5、过程叫做监督学习。监督学习的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个很好的预测。常见的监督学习算法有:决策树adbost算法朴素贝叶斯算法回归算法支持向量机训练集学习系统测试系统测试集模型测试结果监督学习示意图监督学习示意图体重体重翼展翼展脚蹼脚蹼后背颜色后背颜色种属种属11000.1125.0无无棕色棕色红尾鵟红尾鵟23000.7200.0无无灰色灰色鹭鹰鹭鹰33300.0220.3无无灰色灰色鹭鹰鹭鹰44100.0136.0有有黑色黑色普通潜鸟普通潜鸟53.011.0无无绿色绿色蜂鸟蜂鸟上表是用于区分不同鸟类需要使用的四个不同的属性值,分别选取的是体重、翼展、
6、脚蹼和后背颜色作为评测基准。这些测量的四种值成为特征,也叫属性。数据X=x1,x2,x3,x4 表示一组数据标签label Y=y1,y2,y3,y4训练集 T=(x1,y1),(x2,y2),(x3,y3)测试集 (x4,y4)特征损失函数,训练误差,测试误差经验风险最小化与结构风险最小化交叉验证 选取特定的机器学习算法进行分类,首先需要做的是训练算法,既学习如何分类。通常我们为算法输入大量已分类数据作为算法的训练集。训练集就是用于训练机器学习算法的数据样本集合,表1是包含5个样本集合的训练集,每个训练样本有4中特征和一个目标变量,目标变量是机器学习算法的预测结果既F(x),其中x为一组输入
7、样本。损失函数损失函数在监督学习中,给定x,根据F(x)给出相应的输出,而这个输出是预测输出,和真实值y可能一致,也可能不一致。用一个损失函数或者代价函数来度量预测错误的程度。损失函数是F(x)和y的非负值函数,记做L(y,F(x)。常用的损失函数常用的损失函数(1)0-1损失函数(2)平方损失函数 (3)绝对损失函数 (4)对数损失函数)(,0)(,1)(,(xFyxFyxFyL2)()(,(xFyxFyL)()(,(xFyxFyL)|(log)(,(xyPxFyL经验风险最小化与结构风险最小化经验风险最小化与结构风险最小化经验风险最小化的策略认为,经验风险最小的模型是最优模型结构风险最小化
8、 是为了防止过拟合而提出的策略。结构风险在经验风险的上加上表示模型复杂度的正则化项或者说是惩罚项 min R(f)()(,(1)(1FJxFyLNfRNiii奥卡姆剃刀原理:在所有可能的模型中,能够很好地解释已知数据并且十分简单的次啊是最好的模型,也是应该选择的模型。如果给定的样本数据充足,进行模型选择的一种简单方法就是随机地将数据切分成三部分,分别为训练集,验证集和测试集。训练集用来训练模型,验证机用于模型选择,测试集用于最终对学习方法的评估。在学习到不同的复杂度的模型中,选择对验证集有最小预测误差的模型。但是,许多实际应用中数据并不是充分的,为了选择好的模型,可以采用交叉验证的方法。交叉验
9、证的基本思想是重复的使用数据;把给定的数据进行切分,将切分的数据集组合成训练集与测试集,在此基础上反复地进行训练,测试以及模型的选择。交叉验证交叉验证(1)简单交叉验证简单交叉验证:首先随机地将已给数据分为两部分,一部分作为训练集,另一部分最为测试集;然后用训练集在各种条件下训练模型,从而得到不同的模型,在测试集上评价各个模型的测试误差,选出测试误差最小的模型(2)S折交叉验证折交叉验证:首先随机的把已给的数据切分成s个互不相交的大小相同的子集,然后利用s-1个子集的数据训练模型,利用余下的自己测试模型;重复的随机选择训练子集,最后选出评测中平均测试误差最小的模型(3)留一交叉验证留一交叉验证
10、:当S=N时,成为留一交叉验证,这往往在数据缺乏的时候使用。交叉验证交叉验证朴素贝叶斯算法朴素贝叶斯算法贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类假设一个样本集的数据分类两类。P1(x,y)表示数据点(x y)属于类别1的概率,p2(x,y)表示数据点(x y)属于类别2的概率 如果p1(x,y)p2(x,y)则数据(x y)属于类别1 如果p1(x,y)p2(x,y)则数据(x y)属于类别2贝叶斯分类的基础贝叶斯分类的基础贝叶斯定理贝叶斯定理)()()|()|(xPcPcxPxcPiii)|().|()|()|.,()|.,()|(1121112112
11、1capcapcapcaaapcaaaPcxPmmmi基本流程基本流程1、设 为一个待分类项,而每个a为x的一个特征属性。2 有类别集合 3 计算4 求出最大的 则x划分为类别 .,2,1maaax.,2,1nyyyC)|(),.|(),|(21xyPxyPxyPn)|(xyPkky某个医院早上收了六个门诊病人,如下表。症状职业 疾病打喷嚏护士感冒打喷嚏农夫过敏头痛建筑工人脑震荡头痛建筑工人感冒打喷嚏教师感冒头痛教师脑震荡现在又来了第七个病人,是一个打喷嚏的建筑工人。请问他患上感冒的概率有多大?P(感冒|打喷嚏x建筑工人)=P(打喷嚏x建筑工人|感冒)x P(感冒)/P(打喷嚏x建筑工人)打喷
12、嚏和建筑工人这两个特征是独立的P(P(感冒感冒|打喷嚏打喷嚏x x建筑工人建筑工人)=P(=P(打喷嚏打喷嚏|感冒感冒)x P()x P(建筑工人建筑工人|感冒感冒)x P()x P(感冒感冒)/)/P(P(打喷嚏打喷嚏)x P()x P(建筑工人建筑工人)P(感冒|打喷嚏x建筑工人)=0.66 x 0.33 x 0.5/0.5 x 0.33=0.66因此,这个打喷嚏的建筑工人,有66%的概率是得了感冒。同理,可以计算这个病人患上过敏或脑震荡的概率。比较这几个概率,就可以知道他最可能得什么病。这就是贝叶斯分类器的基本方法:在统计资料的基础上,依据某些特征,计算各个类别的概率,从而实现分类。基于
13、朴素贝叶斯的文本分类基于朴素贝叶斯的文本分类首先需要拆分文本以便从中获取特征(词条),一个词条是任意字符的组合。my dog has flea problems help please 0(正常言论正常言论)maybe not take him to dog park stupid 1(侮辱性侮辱性)my dalmation is so cute i love him 0stop posting stupid worthless garbage 1mr licks ate my steak how to stop him 0quit buying worthless dog food stup
14、id 1 )()()|()|(wpcpcwpwcpiii)|.,()|(4321inicwwwwwpcwp)|().|()|()|(321iniiicwpcwpcwpcwp 将W 作为一个个独立的特征,上述公式可写成假设所有词都相互独立(独立性加色)训练阶段训练阶段创建包含所有文档中出现的不重复的词列表cute love help garbage quit I problems is park stop flea dalmation licks food not him buying posting has worthless ate to maybe please dog how stupi
15、d so take mr steak my然后将每一个文本片段表示为一个词条向量,1表示词条出现在文档中,0表示未出现。0 0 1 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 1 1 0 0 0 0 0 0 1给出一个新的文档 ,计算testC通过训练集,对算法进行训练 得出P1,P2。测试阶段测试阶段给定一个测试词条,转换成词条向量计算 =比较 大小。testw)()()|()|(111testtesttestwpcpcwpwcp)()()|().|()|(111211testtestntesttestwpcpcwpcwpcwp)()()|()|(222t
16、esttesttestwpcpcwpwcp)()()|().|()|(222221testtestntesttestwpcpcwpcwpcwp)|(1testwcp)|(2testwcp优点:在数据较少的情况下仍然有效,可以处理多类别问题缺点:对于输入数据的准备方式比较敏感。决策树学习决策树学习决策树决策树在示例学习中,每一个概念实际上可以看成是例子中所属的一个类在示例学习中,每一个概念实际上可以看成是例子中所属的一个类别别示例学习就可以转化为对例子集进行分类的任务示例学习就可以转化为对例子集进行分类的任务 体体形形(+)大大中中小小颜颜色色颜颜色色(-)(+-)(-)(+-)黑黑黑黑棕棕棕棕
17、可以看做是一个对目可以看做是一个对目标分类的划分和获取标分类的划分和获取策略策略u由一个根结点,若干叶结点和非叶结点构成。u根结点对应于学习任务,分类的开始。u每个叶结点都包含一个分类名(概念),表示一个实例的结束。u每个非叶结点都包含表示相应实例中的某一属性。u边代表某一属性可能的属性值。决策树决策树 体体形形(+)大大中中小小颜颜色色颜颜色色(-)(+-)(-)(+-)黑黑黑黑棕棕棕棕l从根节点到叶节点的每一条路径都代从根节点到叶节点的每一条路径都代表一个具体的实例表一个具体的实例l同一路径上的所有属性之间为合取关同一路径上的所有属性之间为合取关系,不同路径(即一个属性的不同属性系,不同路
18、径(即一个属性的不同属性值)之间为析取关系。值)之间为析取关系。l决策树的分类过程就是从这棵树的根决策树的分类过程就是从这棵树的根接点开始,按照给定的事例的属性值去接点开始,按照给定的事例的属性值去测试对应的树枝,并依次下移,直至到测试对应的树枝,并依次下移,直至到达某个叶节点为止。达某个叶节点为止。l 体体形形(+)大大中中小小颜颜色色颜颜色色(-)(+-)(-)(+-)黑黑黑黑棕棕棕棕关于决策树:关于决策树:鸟类鸟类家养家养可能是和平鸽可能是和平鸽可能是可能是信天翁信天翁游泳游泳可能是可能是企鹅企鹅可能是可能是鸵鸟鸵鸟一个简单的鸟类识别决策树一个简单的鸟类识别决策树会飞会飞不会飞不会飞是是
19、不是不是会会不会不会可表示为如下规则集:可表示为如下规则集:IF 鸟类会飞鸟类会飞 AND 是家养的是家养的 THEN 该鸟类可能是和平鸽该鸟类可能是和平鸽 IF 鸟类会飞鸟类会飞 AND 不是家养的不是家养的 THEN 该鸟类可能是信天翁该鸟类可能是信天翁 IF 鸟类不会飞鸟类不会飞 AND 会游泳会游泳 THEN 该鸟类可能是企鹅该鸟类可能是企鹅 IF 鸟类不会飞鸟类不会飞 AND 不会游泳不会游泳 THEN 该鸟类可能是鸵鸟该鸟类可能是鸵鸟 q 决策树还可以表示成规则的形式决策树还可以表示成规则的形式l昆兰(昆兰(J.R.Quinlan)于)于1979年提出的一种以年提出的一种以信息熵信
20、息熵(entropy)的下降速度作为)的下降速度作为属性选择标准的一种学习算法。属性选择标准的一种学习算法。l输入是一个用来描述各种已知类别的输入是一个用来描述各种已知类别的例子集例子集l学习结果是一棵用于进行分类的学习结果是一棵用于进行分类的决策树决策树 ID3 算法算法:1.令根结点包含例子集中所有实例。2.如果每个叶结点包含的例子都属于同一分类,则停止划分。3.否则需对叶结点进行进一步划分:(1)需要进一步划分的叶结点所包含的例子组成子例子集S。(2)找出对S来说E值最小的属性abest。(3)根据属性abest的值对S进行划分,每个值将生成一个分枝。(4)执行步骤2。通过通过E值可以找
21、出一个最有利于当值可以找出一个最有利于当前划分的属性前划分的属性 体体形形(+)大大中中小小颜颜色色颜颜色色(-)(+-)(-)(+-)黑黑黑黑棕棕棕棕ID3 ID3 算法算法 :EaNNNNNNNNijjVjjjjjjji()(loglog)122n E是一个基于是一个基于熵熵(平均信息量平均信息量)的函数,该函数评的函数,该函数评 价用价用各属性进行分类所能获得的信息量各属性进行分类所能获得的信息量,选择,选择E 值最小即获得信息量最大的属性。值最小即获得信息量最大的属性。ID3 ID3 算法算法S中属性中属性ai的值为的值为vij的正例数目的正例数目Nj-为属性为属性ai的值为的值为vi
22、j的反例数目的反例数目熵熵熵是研究不确定人工智能的一个重要参数熵是研究不确定人工智能的一个重要参数QST 熵的历史可以追溯到熵的历史可以追溯到1919世纪。世纪。18641864年德国物理学家克劳修斯在年德国物理学家克劳修斯在研究热力学时首先提出熵的概念:研究热力学时首先提出熵的概念:18771877年,玻尔兹曼又给出了熵的统计学新定义年,玻尔兹曼又给出了熵的统计学新定义玻尔兹曼玻尔兹曼公式,即公式,即S=klnW;kS=klnW;k为玻尔兹曼常数;为玻尔兹曼常数;W W是某一宏观态所对应的微观态数是某一宏观态所对应的微观态数目,即该微观态的热力学几率目,即该微观态的热力学几率19481948
23、年,香农将熵的定义引入信息领域:年,香农将熵的定义引入信息领域:信息熵信息熵设一个系统设一个系统X由多个事件由多个事件|Xi|(i=1,2,n)组成,事件)组成,事件Xi的的概率为概率为p(Xi),那么信息熵定义为:,那么信息熵定义为:信息熵信息熵的定义:的定义:1()()log()niiiH Xp Xp X q 信息熵大,说明什么?信息熵大,说明什么?例:给出概率分布例:给出概率分布其信息熵分别为:其信息熵分别为:q 信息熵越大,不确定性程度越大信息熵越大,不确定性程度越大q 信息熵表示事件集信息熵表示事件集X X中事件出现的平均不确定性中事件出现的平均不确定性q 当当X X中事件出现的概率
24、相等时,信息熵达到最大值中事件出现的概率相等时,信息熵达到最大值1()()log()niiiH Xp Xp X H(X)-P(x1)关系关系EaNNNNNNNNijjVjjjjjjji()(loglog)122n E E是一个基于是一个基于熵熵(平均信息量平均信息量)的函数,该函数评的函数,该函数评 价用各属性进行分类所能获得的信息量,选择价用各属性进行分类所能获得的信息量,选择E E 值最小即获得信息量最大的属性。值最小即获得信息量最大的属性。ID3 ID3 算法:算法:S中属性中属性ai的值为的值为vij的正例数目的正例数目Nj-为属性为属性ai的值为的值为vij的反例数目的反例数目狗的例
25、子集狗的例子集例子序号例子序号颜色颜色体形体形 毛型毛型 类别类别1 1黑黑大大卷毛卷毛2 2棕棕大大光滑光滑3 3棕棕中中卷毛卷毛4 4黑黑小小卷毛卷毛5 5棕棕中中光滑光滑6 6黑黑大大光滑光滑7 7棕棕小小卷毛卷毛8 8棕棕小小光滑光滑9 9棕棕大大卷毛卷毛1010黑黑中中卷毛卷毛1111黑黑中中光滑光滑1212黑黑小小光滑光滑实例:实例:危险危险狗的例子集 例子序号例子序号颜色颜色体形体形 毛型毛型 类别类别1 1黑黑大大卷毛卷毛2 2棕棕大大光滑光滑3 3棕棕中中卷毛卷毛4 4黑黑小小卷毛卷毛5 5棕棕中中光滑光滑6 6黑黑大大光滑光滑7 7棕棕小小卷毛卷毛8 8棕棕小小光滑光滑9
26、9棕棕大大卷毛卷毛1010黑黑中中卷毛卷毛1111黑黑中中光滑光滑1212黑黑小小光滑光滑EaNNNNNNNNijjVjjjjjjji()(loglog)122E颜色.棕色 E颜色.黑色444222425 51022loglog.22244424551022loglog.E E颜色颜色5.5105.5105.5105.51011.02011.020颜色颜色=棕色的狗:棕色的狗:4只是危险的,只是危险的,2只不是危险的。只不是危险的。颜色颜色=黑色的狗:黑色的狗:2只是危险的,只是危险的,4只不是危险的。只不是危险的。E体形.大E体形.中E体形.小 111333133 24522loglog.1
27、11333133 24522loglog.E体形体形3.2453.2456.490 44400040022lo glo g体形体形=大的大的4条狗全是危险的;条狗全是危险的;体形体形=中中/小的狗:小的狗:1条是危险的;条是危险的;3条不是危险的。条不是危险的。ID3 算法 E毛型.光滑 E毛型.卷毛 E毛型毛型6612 33333333622loglog33333333622loglog毛型毛型=光滑的狗:光滑的狗:3条是危险的;条是危险的;3条不是危险的。条不是危险的。毛型毛型=卷毛的狗:卷毛的狗:3条是危险的;条是危险的;3条不是危险的。条不是危险的。因此,因此,E体形体形 E E颜色颜
28、色m),输入矩阵X不是满秩矩阵,而非满秩矩阵在求逆会出现问题。为了解决这个问题,引入了岭回归的概念。岭回归就是在矩阵 上加上一 个 矩阵,使其非奇异。矩阵I 是一个m*m的单位矩阵,对角线上为1,其他元素为0.是自定义的一个参数。xxTIYXIXXTT1)(LogisticLogistic回归回归假设现在有一些数据点,我们用一条直线对这些点拟合(最佳拟合直线),这个拟合的过程就叫回归。根据现有数据对分类边界线简历回归公式,以此进行分类,训练分类器时的做法就是寻找最佳拟合参数。我们想要的函数应该是能够接受所有的输入然后预测出类别。在两类的情况下,函数应该输出0或1.有很多单位跃阶函数(海维赛德跃
29、阶函数)。然而,这种函数在跳跃点上从0瞬间跳到1上,这个瞬间跃阶很难处理好Sigmoid函数 当x为0时,函数值为0.5,随着x增大,函数值增大并逼近于1,x减小,函数值减小并逼近于0.ze11mmxxxxh.221100如果采用向量的方法写如果采用向量的方法写 xzTX就是输入数据,就是输入数据,就是需要进行训练的参数。就是需要进行训练的参数。通过训练后找到最优化的参数通过训练后找到最优化的参数梯度上升法梯度上升法基本思想:想找到某函数的最大值,最好的方法是沿着该函数的梯度方向探寻。yyxfxyxfyxf),(),(),(梯度上升算法的迭代公式:梯度上升算法的迭代公式:)(f21)()()(
30、21)(miiiyxhJ2)(21)(yxhJjj)(*)(21*2yxhyxhj)(*)(0yxyxhniiijjxyxh)()()()()(:ijiijjxxhy每个回归系数初始化为每个回归系数初始化为1重复重复N次:次:计算整个数据集的梯度计算整个数据集的梯度使用使用 更新回归系数更新回归系数返回回归系数返回回归系数)(fW=4.120711455781440,0.479779632289162,-0.616416051893343这个分类结果只错分了4个点,分类精度相当不错。但是这个方法需要大量的计算,不适用于大规模的数据。神经网络神经网络人工神经网络(Artificial Neura
31、l Networks,简写为ANNs)也简称为神经网络(NNs)或称作连接模型(Connection Model),它是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。bxwfyniii1f1x2x1w2wnwnxby861x21w13w12w11wRx2x22w23w1Rw2Rw3Rw12f11sf11sn12n11f11n22sf22sn22f22n21f21n31f31n32f32n33sf33sn11sa12a11a22sa22a21a22sa22a21a连接权值连接权值87
32、改变权值的过程就是学习改变权值的过程就是学习的过程的过程newijoldijwwijwij88 规律?规律?ijwijnewijoldijww89The Hebb RuleD.Hebb,1904-1985.Degree in English,1925.Master degree in psychology at McGill University.Ph.D.from Harvard in 1936.Moved to Yerkes Lab in 1942.Published“The Organization of Behavior”in 1949.90Hebb Rulesynapse Hebb
33、规则是最早的神经网络学习规则之一,规则是最早的神经网络学习规则之一,其最关键的一条假设:若一条突触两侧的两个神经元同时其最关键的一条假设:若一条突触两侧的两个神经元同时 被激活,那么突触的强度将增大。被激活,那么突触的强度将增大。91wapoldwneww权值权值W 不仅仅在不仅仅在 a,p 全为正数增大,在全为正数增大,在 全为负数时也增全为负数时也增大大92Hebb 规则规则wapnewoldwwa p 如果两个神经元的突触同时激活,那么它们之间如果两个神经元的突触同时激活,那么它们之间的连接强度会增加的连接强度会增加93自联想存储器自联想存储器 学习规则学习规则p1t1,p2t2,pQt
34、Q,1p21w13w12w11wsa2a1aRp2p22w23w1Rw2Rw3RwWt1p1Tt2p2TtQpQT+tqpqTq1=Q=Wne wWoldtqpqT+=newoldwwt p Supervised Hebbian Learning94Wt1t2tQp1Tp2TpQTTPT=Tt1t2tQ=Pp1p2pQ=Matrix Form:Wt1p1Tt2p2TtQpQT+tqpqTq1=Q=(Zero InitialWeights)Wne wWoldtqpqT+=学习规则学习规则95P1 P2 P3 P?96211p11111p1111113pPP3P2P11111pInputs:Out
35、puts:11t111t211t3Input:Output:?97Wt1p1Tt2p2TtQpQT+tqpqTq1=Q=11113113332211TTTptptptW1t1122slimhard)Wp(slimharda基于基于hebheb神经网络的神经网络的PCAPCA传统传统PCA算法的缺点:算法的缺点:需要大量的计算需要大量的计算 属于批量学习属于批量学习基于神经网络的基于神经网络的PCA的优点:的优点:不需要计算协方差矩阵不需要计算协方差矩阵 属于在线学习属于在线学习 99)()()()()()1(2kwkykxkykwkw()Nix(2)ix(1)ixnw2w1w()1NnTnii
36、nyw xw x,1,iXxiK基于基于hebb规则的权值更新公式:规则的权值更新公式:数据集数据集 基于基于hebb规则的神经网络已被证明规则的神经网络已被证明 当迭代次数无穷大时,方差趋向当迭代次数无穷大时,方差趋向于于1()w kek 1nxxxx21yNNHigh dimensional dataOne dimensional data64 pages102Sanger proposed the Generalized Hebbian Algorithm(GHA)多维压缩多维压缩xwyT22xwyT111xnx2xxwyTmm64 pages103GHA Learning Algori
37、thm4,3,21)()()()()()1(1,jkykwkxkykwkwjsssjjj1x2y1y64x2x4y64 pages1042221122(1)()()()()()()()w kw k y kx kw k ykw k y k)()()()()()1(11111kykwkxkykwkw2维压缩维压缩xwyT22xwyT111xnx2x(Oja Algorithm based onHebb rules)第一个输出神经元权值向量第一个输出神经元权值向量11)(ekw第二个输出神经元权值向量第二个输出神经元权值向量22)(ekw64 pages105.409621 ,)(6421,kaaa
38、kx感知机感知机感知器是用于线性可分模式分类的最简单的神经网络.它由一个具有可调突触权值和偏置的神经元组成。X1X2xmw1w2wm偏置bv()输出Ymiiibxwv1感知器权值自适应公式1.假如训练成员第N个成员x(n)根据算法中的第N次迭代的权值向量w(n)能正确分类,那么感知器的权值向量不做修改2.否则,感知器的权值向量根据以下规则进行修改:w(n+1)=w(n)-(n)x(n)假如预测结果为1,实际属于类2 w(n+1)=w(n)+(n)x(n)假如预测结果为2,实际属于类1这里(n)是学习参数,控制这第n次迭代中作用于权值向量的调节BP神经网络反向传播算法也称BP算法。由于这种算法在
39、本质上是一种神经网络学习的数学模型,所以,有时也称为BP模型。BP算法是为了解决多层前向神经网络的权系数优化而提出来的;所以,BP算法也通常暗示着神经网络的拓扑结构是一种无反馈的多层前向网络。故而有时也称无反馈多层前向网络为BP模型。基本原理:利用输出后的误差来估计输出层的直接前导层的误差,再用这个误差估计更前一层的误差,如此一层一层的反传下去,就获得了所有其他各层的误差估计 BP神经网络具有一层隐藏层的多层感知器函数信号的前向传播和误差信号的反向传播BP模型的学习过程反向传播算法分二步进行,即正向传播和反向传播。这两个过程的工作简述如下。1正向传播输入的样本从输入层经过隐单元一层一层进行处理
40、,通过所有的隐层之后,则传向输出层;在逐层处理的过程中,每一层神经元的状态只对下一层神经元的状态产生影响。在输出层把现行输出和期望输出进行比较,如果现行输出不等于期望输出,则进入反向传播过程。2反向传播反向传播时,把误差信号按原来正向传播的通路反向传回,并对每个隐层的各个神经元的权系数进行修改,以望误差信号趋向最小。步骤1,2不断循环 直到网络输出误差减少到可接受程度或者进行到预先设定的次数为止。自组织映射自组织映射 当人脑接收外界的时空信息时,大脑皮层的特定区域会兴奋,而且类似的外界信息在对应的区域是连续的。因此Kohonen认为,一个神经网络在接受外界输入模式时,将会分为不同的对应区域,且
41、各个区域对输入模式有不同的响应特征,而且这个特征是自动完成的。SOFM只有两层:输入层和竞争层,竞争层神经元的排列有多种形式:一维线阵、二维平面、三维栅格等等。权值调整方法是在胜者为王基础上改进的,即优胜领域内的神经元都可以调整权值。理论上应该是离胜者越近,学习率的越大,但是为简化计算,实际中优胜领域内一般取相同的学习率。优胜领域开始定的很大,随着训练次数的增加,最终应该收缩到0。SOFM分为训练阶段和工作阶段,要训练阶段,权向量被训练为输入样本空间的聚类中心。在工作阶段,当输入向量与某个竞争层的内星权值相似时,自然会被分到对应的聚类上去。因此SOFM可用作模式分类器。注意当输入模式在训练集中
42、从未出现过时,SOFM网只能将它归入最接近的模式分类中去。自组织映射主要有三个过程:1.竞争。对每个输入模式,网络中的神经元计算它们各自判别的函数值。具有最大函数值的特定神经元成为竞争的胜利者2.合作。获胜神经元决定兴奋神经元的拓扑邻域的空间位置,从而提供这样的相邻神经元合作的基础3.突触调节。使兴奋神经元通过对它们的突触权值进行适当的调节以增强它们关于该输入模式的判别函数值。所做的调节是获胜神经元对以后相似的输入模式响应增强了。递归神经网络递归神经网络神经网络的特点神经网络的特点1)可以充分逼近任意复杂的非线性关系;(2)所有定量或定性的信息都等势分布贮存于网络内的各神经元,故有很强的鲁棒性和容错性;(3)采用并行分布处理方法,使得快速进行大量运算成为可能;(4)可学习和自适应不知道或不确定的系统;(5)能够同时处理定量、定性知识。