机器学习研究及进展课件.ppt_163文库

资源描述

1、2022-8-13谭营-机器学习研究及最新进展 1机器学习研究及最新进展机器学习研究及最新进展谭营教授北京大学智能科学系视觉与听觉信息处理国家重点实验室2022-8-13谭营-机器学习研究及最新进展 2目录机器学习的定义和任务机器学习的发展历史机器学习的主要方法机器学习面临的挑战最新发展方向题目：题目：机器学习研究及最新进展机器学习研究及最新进展 2022-8-13谭营-机器学习研究及最新进展 3学习系统基本构成学习环节知识库执行环节学习环节学习环节:感知环感知环境，获取知识境，获取知识常用的学习方法常用的学习方法机械式学习指导式学习归纳式学习类比学习一个基于知识库的智能系统环境

2、2022-8-13谭营-机器学习研究及最新进展 4机器学习的定义通过通过经验经验提高系统自身的性能的过程提高系统自身的性能的过程（系统自我改进）系统自我改进）。机器学习的重要性机器学习的重要性:机器学习是人工智能的主要核心研究领域之一,也是现代智能系统的关键环节和瓶颈。很难想象:一个没有学习功能的系统是能被称为是具有智能的系统。2022-8-13谭营-机器学习研究及最新进展 5入侵检测系统IDS：是否是入侵？是何种入侵？如何检测？历史数据：以往的正常访问模式及其表现、以往的入侵模式及其表现对当前访问模式分类这是一个典型的机器学习问题常用技术：神经网络，决策树，支持向量机，贝叶斯分类器，k近邻

3、，聚类，序列分析，免疫网络等 2022-8-13谭营-机器学习研究及最新进展 6如何预测？气象历史数据：以往的各种气象数据及其变化特点对未来一周天气的预报这是一个典型的机器学习问题常用技术：统计多参数模型，神经网络，贝叶斯分类器，k近邻，聚类2022-8-13谭营-机器学习研究及最新进展 7Google的成功，使得Internet搜索引擎成为一个新兴的产业出现有众多专营搜索引擎的公司（例如百度等专门针对中文搜索），而且Microsoft等巨头也开始投入巨资进行搜索引擎的研发机器学习技术正在支撑着各类搜索引擎（尤其是贝叶斯学习技术）Google掘到的第一桶金，来源于其创始人Larry Page和

4、Sergey Brin提出的PageRank算法2022-8-13谭营-机器学习研究及最新进展 8Application 42022-8-13谭营-机器学习研究及最新进展 9Application 42022-8-13谭营-机器学习研究及最新进展 10Application 52022-8-13谭营-机器学习研究及最新进展 11Application 62022-8-13谭营-机器学习研究及最新进展 12Other Applications 2022-8-13谭营-机器学习研究及最新进展 13机器学习的任务令W是这个给定世界的有限或无限所有对象的集合，由于观察能力的限制，我们只能获得这个世界

5、的一个有限的子集QW，称为样本集。机器学习就是根据这个有限样本集Q，推算这个世界的模型，使得其对这个世界为真。QWModel建模泛化2022-8-13谭营-机器学习研究及最新进展 14机器学习的三要素（1）一致性假设：机器学习的条件。（2）样本空间划分：决定模型对样本集合的有效性。（3）泛化能力：决定模型对世界的有效性。2022-8-13谭营-机器学习研究及最新进展 15要素1：一致性假设假设世界W与样本集Q具有某种相同的性质。原则上说，存在各种各样的一致性假设。在统计意义下，一般假设：W与Q具有同分布。或，给定世界W的所有对象独立同分布。2022-8-13谭营-机器学习研究及最新进展 16

6、要素2：对样本空间的划分样本集合模型：将样本集放到一个n维空间，寻找一个超平面(等价关系)，使得问题决定的不同对象被划分在不相交的区域。2022-8-13谭营-机器学习研究及最新进展 17要素3：泛化能力通过机器学习方法，从给定有限样本集合计算一个模型，泛化能力是这个模型对世界为真程度的指标。样本1样本2样本3新样本泛化值2022-8-13谭营-机器学习研究及最新进展 18关于三要素不同时期，研究的侧重点不同划分划分:早期研究主要集中在该要素上泛化能力泛化能力(在多项式划分):80年代以来的近期研究一致性假设一致性假设:未来必须考虑2022-8-13谭营-机器学习研究及最新进展 19

7、机器学习是多学科交叉机器学习统计学人工智能哲学信息论生物学计算复杂性数学认知科学控制论其他学科应用领域2022-8-13谭营-机器学习研究及最新进展 20THE QUESTIONS-The Top 25What Is the Universe Made Of?What is the Biological Basis of Consciousness?Why Do Humans Have So Few Genes?To What Extent Are Genetic Variation and Personal Health Linked?Can the Laws of Physics Be U

8、nified?How Much Can Human Life Span Be Extended?What Controls Organ Regeneration?How Can a Skin Cell Become a Nerve Cell?How Does a Single Somatic Cell Become a Whole Plant?How Does Earths Interior Work?Are We Alone in the Universe?How and Where Did Life on Earth Arise?What Determines Species Divers

9、ity?What Genetic Changes Made Us Uniquely Human?How Are Memories Stored and Retrieved?How Did Cooperative Behavior Evolve?.http:/www.sciencemag.org/sciext/125th/On 25 big questions facing science over the next quarter-century.(1 July 2005)2022-8-13谭营-机器学习研究及最新进展 21记忆的模型与过程记忆的模型与过程通常包括三个相互联系的阶段：1、编码

10、（encoding），2、存储（storage）3、提取（retrieval）记忆的模型2022-8-13谭营-机器学习研究及最新进展 22工作记忆工作记忆（Working Memory）工作记忆系统能同时储存和加工信息，这和短工作记忆系统能同时储存和加工信息，这和短时记忆概念仅强调储存功能是不同的。时记忆概念仅强调储存功能是不同的。工作记忆分成：中枢执行系统、视空初步加工工作记忆分成：中枢执行系统、视空初步加工系统和语音环路。系统和语音环路。工作记忆与语言理解能力、注意力及推理能力工作记忆与语言理解能力、注意力及推理能力等联系紧密，等联系紧密，工作记忆蕴藏工作记忆蕴藏智能智能的玄机的玄机。2

11、022-8-13谭营-机器学习研究及最新进展 23Working Memory Model2022-8-13谭营-机器学习研究及最新进展 24机器学习的分支数据挖掘数据挖掘：利用历史数据来改进决策例如：医学记录医学知识软件应用软件应用（不能手工编程的应用）汽车自动驾驶语音识别等自用户化程序自用户化程序新闻阅读器学习用户的阅读兴趣。返回返回 2022-8-13谭营-机器学习研究及最新进展 25机器学习早期研究 Rosenblatt的感知机(1956)。Widrow的Madline(1960)。Samuel的符号机器学习(1965)。Minsky的“Perceptron”著作(19

12、69，1988)。2022-8-13谭营-机器学习研究及最新进展 26Perceptrons Devised by Frank Rosenblatt in the late 1950s A single-layer network where all inputs and activation values are either 0 or 1,and the weights are real valued Activation function is a simple linear threshold 1 if xiwi t 0 otherwise Supervised learning,pe

13、rceptron changes weights based on correct results If output is correct,do nothing If output is 0 and should be 1,increment weights on the active lines(input of 1)by some amount d.If output is 1 and should be 0,decrement weights on the active lines by some amount d.2022-8-13谭营-机器学习研究及最新进展 27Limits of

14、 Perceptrons Single-layer networks are only capable of learning classes that are linearly separable For example,exclusive-or is not linearly separable,and thus cannot be represented by a perceptron For any n-dimensional space,a classification is linearly separable if these groups can be separated wi

15、th a single n-1 dimensional hyperplaneYXX xor Y=0X xor Y=10112022-8-13谭营-机器学习研究及最新进展 28二十世纪八十年代的研究符号机器学习取得进展。神经网络的研究。计算学习理论-PAC(概率近似正确)。2022-8-13谭营-机器学习研究及最新进展 29两类最重要的符号机器学习算法覆盖算法与分治算法。七十年代末，Michalski基于带等号的逻辑演算，提出了AQ11算法，称为符号机器学习的覆盖算法。1986年，Quinlan提出了决策树算法，也称为分治算法(树结构表示的最早研究是CLS，概念学习系统)。2022-8-13

16、谭营-机器学习研究及最新进展 30神经网络 Hopfield模型。Kohonen模型。Goldberg的ART模型。最有影响的是Remulhart等人提出的BP算法(1986)。2022-8-13谭营-机器学习研究及最新进展 31计算学习理论 1984年，Valiant提出机器学习应该以模型概率近似正确(1-)为指标，而不是以概率为1为指标。学习算法必须对样本集合的规模呈多项式。统计机器学习、集成机器学习等方法的理论基础。2022-8-13谭营-机器学习研究及最新进展 32机器学习学科 1983年，R.S.Michalski等人撰写机器学习：通往人工智能的途径一书 1986年，Machine

17、 Learning杂志创刊 1997年以Tom Mitchell的经典教科书（McGraw Hill Press，1997）中都没有贯穿始终的基础体系，只不个是不同方法和技术的罗列机器学习还非常年轻、很不成熟返回2022-8-13谭营-机器学习研究及最新进展 33机器学习的主要方法传统分类归纳机器学习解释机器学习遗传机器学习连接机器学习现代分类（1997年，Dietterich）符号机器学习。统计机器学习。集成机器学习。增强机器学习。2022-8-13谭营-机器学习研究及最新进展 34学习方法的传统分类传统上，大致可分为4类：归纳学习解释学习遗传学习连接学习2022-8-13谭营-

18、机器学习研究及最新进展 35归纳学习是从某一概念的分类例子集出发归纳出一般的概念描述。这是目前研究得最多的学习方法，其学习目的是为了获得新的概念、构造新的规则或发现新的理论。这种方法要求大量的训练例，而且归纳性能受到描述语言、概念类型、信噪比、实例空间分布、归纳模式等的影响。包括：有变型(版本)空间、决策树方法、AQ11算法，一阶Horn子句等2022-8-13谭营-机器学习研究及最新进展 36解释学习解释学习（分析学习）是从完善的领域理论出发演绎出有助于更有效地利用领域理论的规则。其学习目的是提高系统性能，而不是修改领域理论。它与归纳学习相反，只需要少量的训练例，但要求有完善的领域理论，

19、而且学习效果也与例子表示形式、学习方法（正例学习或反例学习）、概括程度等有关。2022-8-13谭营-机器学习研究及最新进展 37遗传学习是通过模拟自然界遗传与变异机制，利用进化论的自然选择原理进行分类和优化。优点：可以使一些用传统的精确的符号方法无法解决的问题变得易解缺点：在学习过程中会产生大量数据，如何对这些数据进行挑选和记忆？2022-8-13谭营-机器学习研究及最新进展 38连接学习通过以某种形式连接的大量神经元根据训练模式集调整连接和阈值进行学习，这种学习方式就是通常所说的人工神经网络学习，也称为“并行分布式学习”，其出发点是著名的MP模型。该方法在50、60年代陷入沉寂，但在

20、80年代解决TSP问题后得到复兴(BP,HNN,etc.)。这得益于隐结点的使用使其突破了早期Perceptron的限制。优点：在模式识别、语音处理等许多方面已得到成功应用。缺点：难以处理高层次的符号信息，使得应用范围受到了限制。返回2022-8-13谭营-机器学习研究及最新进展 39机器学习方法的现代分类1997年，Dietterich的分类符号机器学习统计机器学习集成机器学习增强机器学习返回2022-8-13谭营-机器学习研究及最新进展 40符号机器学习 1959年Solomonoff关于文法归纳的研究应该是最早的符号机器学习。1967年Gold证明，这是不可能的实现的。Samue

21、l将分段划分引入对符号域的数据处理,形成了一类基于符号数据集合的约简算法，这是现代符号机器学习的基础。约简：规则长度越短，覆盖对象越多，但是，不能增加对象矛盾。2022-8-13谭营-机器学习研究及最新进展 41符号机器学习的基础-划分机器学习的本质是对样本空间的划分。这需要定义一个等价关系，将样本空间划分为等价类。2022-8-13谭营-机器学习研究及最新进展 42符号机器学习的等价关系定义在给定符号对象集合U上的等价关系a(x,y):a(x)=a(y),x,yU2022-8-13谭营-机器学习研究及最新进展 43Rough Set理论 Pawlak在1982年提出的一种数学理论，包含了

22、两个方面的内容：基于roughness的不精确知识表示理论。Reduct理论与边缘理论。可以证明：覆盖算法和分治算法与Reduct理论等价。Reduct理论是符号机器学习的理论基础。2022-8-13谭营-机器学习研究及最新进展 44Reduct理论的贡献给出了在结构上“非最小”解的精确数学定义-Reduct。Core的概念。根据上述两个概念，引出边缘区域的概念。2022-8-13谭营-机器学习研究及最新进展 45Reduct 是一个属性集合，当从这个集合中删除一个属性，则至少出现一个新的矛盾样本对。因此，它是在的不增加新矛盾对的最小属性集合。rR,POSR(D)POSR-r(D)。2022

23、-8-13谭营-机器学习研究及最新进展 46Core 是一个属性集合。如果删除一个这样的属性，必然出现一个新的样本矛盾对。反映了信息系统的本质。2022-8-13谭营-机器学习研究及最新进展 47边缘区域边缘区域是信息系统所有矛盾样本的集合。如果C(x)=C(y)，但是，D(x)D(y)，x与y是样本集合中的矛盾对。这为我们提供了研究矛盾信息结构的机会。2022-8-13谭营-机器学习研究及最新进展 48性质根据reduct可以建立一个新的信息系统，这个信息系统的所有属性是core。这个性质对形成不同简洁程度文本有重要的应用。2022-8-13谭营-机器学习研究及最新进展 49符号机器学习

24、的限制算法定义在符号域，连续量必须被映射到这样的域上，算法才有效学习算法本身无法刻画泛化能力，而依赖于与算法本身无关的上述映射目前，它是数据分析与数据挖掘的基础返回2022-8-13谭营-机器学习研究及最新进展 50统计机器学习算法的泛化能力 Vapnik的有限样本统计理论线性空间的学习算法(划分)SVM2022-8-13谭营-机器学习研究及最新进展 51泛化误差由于问题世界的统计分布未知(如果已知，无需机器学习,Vapnik)，解析地计算最小期望风险是不可能的。机器学习以最小经验风险与期望风险之差为统计基础，称为泛化误差。泛化能力以此进行估计。2022-8-13谭营-机器学习研究

25、及最新进展 52Duda(1973)Vapnik(1971)样本集：样本个数趋近无穷大有限样本，样本集内部结构(VC维)泛化关系：模型与泛化随机选择样本集的随机变量样本集、模型与泛化泛化能力描述：以概率为1成立以概率1-成立泛化不等式：?(无法指导算法设计)最大边缘(指导算法设计)泛化能力描述2022-8-13谭营-机器学习研究及最新进展 53“泛化误差界”研究的演变 PAC界(Valiant1984)VC维界(Blumer1989)最大边缘(Shawe-Taylor1998)2022-8-13谭营-机器学习研究及最新进展 54最大边缘(Shawe-Taylor1998)loglog)(22

26、2lMRlcherrM0，边缘不能等于零。这意味着，样本集合必须是可划分的。边缘最大，误差界最小，泛化能力最强。泛化能力可以使用样本集合的边缘刻画。这个不等式依赖于边缘M。贡献：给出了有几何直观的界描述，从而为算法设计奠定基础。2022-8-13谭营-机器学习研究及最新进展 55研究趋势算法的理论研究已经基本完成，目前主要集中在下述两个问题上：(1)泛化不等式需要样本集满足独立同分布，这个条件太严厉，可以放宽这个条件？(2)如何根据领域需求选择核函数，有基本原则吗？2022-8-13谭营-机器学习研究及最新进展 56有限样本统计理论的优点所需满足的条件相对较少，尽管需要满足独立同分布，但无需

27、考虑问题世界的先验分布这意味着，这个理论可以仅以样本集(数据)为基础2022-8-13谭营-机器学习研究及最新进展 57要求“线性算法”的原因对计算，非线性算法一般是NP完全的。对世界认识，只有在某个空间可以描述为线性的世界，人们才能够说，这个世界已被认识。2022-8-13谭营-机器学习研究及最新进展 58非线性问题的数学方法寻找一个映射，将非线性问题映射到线性空间，以便其可以在线性空间中线性表述。例如，牛顿万有引力定律：映射：线性表示：,),(22121rmmCrmmf)ln,ln,(ln),(),(2121rmmzyxrmm,2ln),(ln),(21zyxCrmmfzyxg202

28、2-8-13谭营-机器学习研究及最新进展 59在机器学习中的方法方法:寻找具有一般意义的线性空间目前，机器学习主要采用两种方法：整体线性：Hilbert空间分段线性：在流形意义下的线性子空间2022-8-13谭营-机器学习研究及最新进展 60线性可分问题如果一个样本集合是线性可分的，它们一定可以构成两个不相交的闭凸集。这样，线性可分问题变为计算两个闭凸集的最大边缘问题。2022-8-13谭营-机器学习研究及最新进展 61线性不可分问题-核函数可以证明，一定存在一个映射，称为核函数，将在欧氏空间定义的样本映射到特征空间(一个更高维的空间)，使得在特征空间上，样本构成两个不相交的闭凸集。2

29、022-8-13谭营-机器学习研究及最新进展 62SVM 线性可分为基础。给定核函数，如果它可以保证将样本集合在特征空间变换为两个不相交的闭凸集，则对这个样本集合的最大边缘可以通过二次规划、代数几何、计算几何等方法获得。由此，可以获得支持向量。这就是SVM。2022-8-13谭营-机器学习研究及最新进展 63存在问题 SVM只从存在上解决了划分问题，并没有真正在划分上解决核函数的构造问题。泛化问题不仅需要解决划分问题，还需要解决最大边缘问题。这意味着，需要在满足线性划分的核函数中选择一个满足最大边缘的核函数(模型选择)。返回2022-8-13谭营-机器学习研究及最新进展 64集成机器学习动机(

30、Ensembles)在形式上与Madline类似，其泛化理论来自PAC的弱分类器理论。使用多个容易设计的简单PAC弱分类器代替一个较难设计的PAC强分类器。2022-8-13谭营-机器学习研究及最新进展 65研究背景 Valiant84introduced theoretical PAC model for studying machine learning Kearns&Valiant88open problem of finding a boosting algorithm Schapire89,Freund90first polynomial-time boosting algorith

31、ms Drucker,Schapire&Simard 92first experiments using boosting2022-8-13谭营-机器学习研究及最新进展 66背景(cont.)Freund&Schapire 95 introduced AdaBoost algorithm strong practical advantages over previous boosting algorithms experiments using AdaBoost:Drucker&Cortes 95Schapire&Singer 98Jackson&Cravon 96Maclin&Opitz 9

32、7Freund&Schapire 96Bauer&Kohavi 97Quinlan 96Schwenk&Bengio 98Breiman 96Dietterich98 continuing development of theory&algorithms:Schapire,Freund,Bartlett&Lee 97 Schapire&Singer 98Breiman 97Mason,Bartlett&Baxter 98Grive and Schuurmans98Friedman,Hastie&Tibshirani 982022-8-13谭营-机器学习研究及最新进展 67A Formal Vi

33、ew of Boosting Given training set X=(x1,y1),(xm,ym)yi1,1 correct label of instance xiX for t=1,T:construct distribution Dt on 1,m Find weak hypothesis(“rule of thumb”)ht:X 1,1 with small error t on Dt:output final hypothesis Hfinal)(PriitDtyxht2022-8-13谭营-机器学习研究及最新进展 68集成机器学习 1990年Shapire证明，如果将多个PAC

34、弱分类器集成在一起，它将具有PAC强分类器的泛化能力。进而，又说明，这类集成后的强分类器具有统计学习理论的基础。2022-8-13谭营-机器学习研究及最新进展 69弱分类器如果一个分类器的分类能力(泛化)稍大于50%，这个分类器称为弱分类器。这意味着，比掷硬币猜正面的概率稍好，就是弱分类器。2022-8-13谭营-机器学习研究及最新进展 70集成在分类时，采用投票的方式决定新样本属于哪一类。由于每个分类器的分类能力不同，在集成时，需要对所有分类器加权平均，以决定分哪类。2022-8-13谭营-机器学习研究及最新进展 71集成分类器Classifier ensembleihihnh2h1In

35、put vectorClassifier 1Classifier 2Classifier NCombine ClassifiersOutput2022-8-13谭营-机器学习研究及最新进展 72为什么吸引人弱分类器比强分类器设计简单。有统计学习理论的基础。典型方法：加权多数算法，Bootstrap,ADABOOST 等。返回2022-8-13谭营-机器学习研究及最新进展 73AdaBoost Freund&Schapire 97 constructing Dt:given Dt and ht:where:Zt=normalization constant final hypothesis:)

36、(exp(ititttxhyZD)(if)(if1itiititttxhyexhyeZDDttmiD1)(101ln21ttttttxhxH)(sgn)(final返回2022-8-13谭营-机器学习研究及最新进展 74增强机器学习增强机器学习最早提出是考虑“从变化环境中”学习蕴含在环境中知识，其本质是对环境的适应开始的动机主要是为了解决机器人规划、避障与在环境中适应的学习问题 1975年，Holland首先将这个概念引入计算机科学。1990年左右，MIT的Sutton等青年计算机科学家，结合动态规划等问题，统称其为增强机器学习2022-8-13谭营-机器学习研究及最新进展 75 目前，由

37、于网络用户是更为复杂的环境，例如，如何使搜索引擎适应用户的需求，成为更为重要的应用领域 Q学习，动态规划，遗传学习，以及免疫网络都成为实现增强机器学习的有效方法。返回2022-8-13谭营-机器学习研究及最新进展 76机器学习面临的挑战随着应用的不断深入,出现了很多被传统机器学习研究忽视、但非常重要的问题（下面将以医疗和金融为代表来举几个例子）机器学习正与众多学科领域产生了交叉，交叉领域越多,问题也越多,也正是大有可为处2022-8-13谭营-机器学习研究及最新进展 77医疗：以癌症诊断为例，“将病人误诊为健康人的代价”与“将健康人误诊为病人的代价”是不同的金融：以信用卡盗用检测为例，“将盗用

38、误认为正常使用的代价”与“将正常使用误认为盗用的代价”是不同的传统的ML技术基本上只考虑同一代价如何处理代价敏感性？在教科书中找不到现成的答案。2022-8-13谭营-机器学习研究及最新进展 78医疗：以癌症诊断为例，“健康人”样本远远多于“病人”样本金融：以信用卡盗用检测为例，“正常使用”样本远远多于“被盗用”样本传统的ML技术基本上只考虑平衡数据如何处理数据不平衡性？在教科书中找不到现成的答案2022-8-13谭营-机器学习研究及最新进展 79医疗：以乳腺癌诊断为例，需要向病人解释“为什么做出这样的诊断”金融：以信用卡盗用检测为例，需要向保安部门解释“为什么这是正在被盗用的卡”传统的ML技

39、术基本上只考虑泛化不考虑理解如何处理可理解性？在教科书中找不到现成的答案返回2022-8-13谭营-机器学习研究及最新进展 80机器学习的最新进展算法驱动(建模与数据分析)应用驱动2022-8-13谭营-机器学习研究及最新进展 81算法驱动海量非线性数据(108-10)算法的泛化能力考虑学习结果数据的解释代价加权的处理方法不同数据类型的学习方法返回2022-8-13谭营-机器学习研究及最新进展 82应用驱动自然语言分析、网络与电信数据分析、图像数据分析、金融与经济数据分析、零售业数据分析、情报分析。Web信息的有效获取(新一代搜索引擎)。由此导致各种学习任务：数据流学习、多实例学习

40、(部分放弃独立同分布条件)、Ranking学习。蛋白质功能分析,DNA数据分析,SNP数据分析.它们需要使用各种不同方法，解决实际问题。2022-8-13谭营-机器学习研究及最新进展 83应用驱动机器学习流形机器学习半监督机器学习多实例机器学习 Ranking机器学习数据流机器学习图模型机器学习结束语2022-8-13谭营-机器学习研究及最新进展 84流形机器学习很多问题的表示方法，使得信息十分稀疏，如何将信息稠密化是一个困难的问题（“维数灾难”），PCA是一种方法，但是，只对线性情况有效流形学习是解决上述问题的非线性方法2022-8-13谭营-机器学习研究及最新进展 85高微

41、数据的低微表示线性方法 PCA(Principal Component Analysis)ICA(Independent Component Analysis)FDA(Fisher Discrimination Analysis)MDS(Multi-Dim Scale analysis)非线性方法 LLE(Local linear Embeding)(Roweis,Science,2000)Isomap(Tenenbaum,Science,2000)由于流形的本质是分段线性化，因此，流形学习需要解决计算开集、设计同胚映射等问题2022-8-13谭营-机器学习研究及最新进展 86半监督机器学习

42、在观测数据中，可能有很多观测不能决定其类别标号。这需要根据数据中已知类别标号的样本与领域知识来推测这些样本的类别标号，并建立问题世界的模型，这就是半监督学习这类问题直接来自于实际应用：例如，大量医学影像，医生把每张片子上的每个病灶都标出来再进行学习，是不可能的，能否只标一部分，并且还能利用未标的部分？2022-8-13谭营-机器学习研究及最新进展 87多示例机器学习传统的机器学习中，一个对象有一个描述，而在一些实际问题中，一个对象可能同时有多个描述，到底哪个描述是决定对象性质(例如类别)的，却并不知道。解决这种“对象：描述：类别”之间1:N:1关系的学习就是多示例学习2022-8-13谭营-机

43、器学习研究及最新进展 88Ranking机器学习其原始说法是learning for ranking 问题主要来自信息检索，假设用户的需求不能简单地表示为“喜欢”或“不喜欢”，而需要将“喜欢”表示为一个顺序，问题是如何通过学习，获得关于这个“喜欢”顺序的模型。2022-8-13谭营-机器学习研究及最新进展 89数据流机器学习在网络数据分析与处理中，有一类问题，从一个用户节点上流过的数据，大多数是无意义的，由于数据量极大，不能全部存储，因此，只能简单判断流过的文件是否有用，而无法细致分析如何学习一个模型可以完成这个任务，同时可以增量学习，以保证可以从数据流中不断改善(或适应)用户需求的模型20

44、22-8-13谭营-机器学习研究及最新进展 90研究现状主要以任务为驱动力,学习方法有待创新以上这些机器学习方式还处于实验观察阶段，缺乏坚实的理论基础实际应用效果仍有待研究2022-8-13谭营-机器学习研究及最新进展 91存在的理论问题统计类机器学习需要满足独立同分布条件，严厉！寻找问题线性表示的空间，没有一般的原则。信息向符号的映射，没有好的方法。机器学习没有一劳永逸的解决方案。领域知识与数据分析不可避免。2022-8-13谭营-机器学习研究及最新进展 92研究趋势尽管“学习机制”还是研究的动力，然而，“烦恼网络”的危机，使得更为重要的推动力来自“有效利用”信息。传统领域借用机器学习提高研究水平。应用驱动的机器学习方法层出不穷。基于机器学习的数据分析方法成为解决复杂问题的关键之一。2022-8-13谭营-机器学习研究及最新进展 93结束语当前，机器学习所面临情况是：数据复杂、海量，用户需求多样化。从而,要求：(1)需要科学和高效的问题表示，以便将其学习建立在科学的基础上(2)应用驱动成为必然,从而针对某个或某类应用给出特定的学习方法将不断涌现(3)对机器学习的检验问题只能在应用中检验自己(4)对机器学习的结果的解释,将逐渐受到重视2022-8-13谭营-机器学习研究及最新进展 94谢谢!返回

展开阅读全文