FAFU机器学习 07-1NNndayes中文.pptx

上传人(卖家):最好的沉淀 文档编号:7259519 上传时间:2023-11-05 格式:PPTX 页数:44 大小:1.08MB
下载 相关 举报
FAFU机器学习 07-1NNndayes中文.pptx_第1页
第1页 / 共44页
FAFU机器学习 07-1NNndayes中文.pptx_第2页
第2页 / 共44页
FAFU机器学习 07-1NNndayes中文.pptx_第3页
第3页 / 共44页
FAFU机器学习 07-1NNndayes中文.pptx_第4页
第4页 / 共44页
FAFU机器学习 07-1NNndayes中文.pptx_第5页
第5页 / 共44页
点击查看更多>>
资源描述

1、机器学习基础kNN和Bayes主要分类方法逻辑回归线性判别分析决策树归纳最近的邻居贝叶斯分类方法反向传播分类支持向量机集合方法最近邻分类器最近邻分类器最近邻分类器最近邻分类器需要三件事存储记录的集合用于计算记录之间距离的距离度量k的值,即要检索的最近邻数对未知记录进行分类:计算到其他培训记录的距离确定k个最近邻使用最近邻的类标签来确定未知记录的类标签(例如,通过采取多数票)最近邻的定义最近邻的定义1个最近邻个最近邻Voronoi,Dirichlet,。n,;。最近邻分类器最近邻分类器计算两点之间的距离:欧几里得距离从最近邻列表中确定类取K个最近邻中类标签的多数票根据距离给选票加权权重因子,w=

2、1/D2最近邻分类器最近邻分类器计算两点之间的距离:欧几里得距离闵可夫斯基距离曼哈顿标称属性的距离二进制属性的距离序数变量距离混合类型的距离最近邻分类器最近邻分类器类sklearn.neighbors.distancemetric这个类为快速距离度量函数提供了统一的接口。可以通过get_metric类方法和度量字符串标识符访问各种度量从从sklearn.neighbors导入导入DistanceMetricdist=distanceMetric.get_metric(“euclidean”)X=0,1,2,3,4,5Dist.pairwise(X)数组(0,5.19615242,5.19615

3、242,0.)最近邻分类器最近邻分类器类sklearn.neighbors.distancemetric用于实值向量空间的度量:最近邻分类器最近邻分类器选择K:的值如果k太小,对噪声点敏感如果k太大,则邻域可能包括来自其他类的点最近邻分类器最近邻分类器缩放问题可能必须对属性进行缩放,以防止距离度量被其中一个属性所支配例:一个人的身高可由1.5米至1.8米不等一个人的体重可以从90磅到300磅不等一个人的收入可能从1万美元到100万美元不等最近邻分类器最近邻分类器k-NN分类器是懒学习者(,)它不显式地构建模型不同于急切的学习者()如决策树归纳对未知记录进行分类比较昂贵sklearn.neigh

4、borssklearn.neighbors提供无监督和基于监督邻居的学习方法的功能。无监督最近邻居是许多其他学习方法的基础,特别是流形学习(StandStand)和谱聚类(Posiple)。基于监督邻域的学习有两种类型:对具有离散标签的数据进行分类,对具有连续标签的数据进行回归。NearestNeighbors近邻实现了无监督的最近邻学习。它充当三种不同的最近邻算法的统一接口:BallTree、KDTree和基于中例程的暴力算法sklearn.metrics.pairwise.邻域搜索算法的选择通过关键字“algorithm”来控制,该关键字必须是auto、ballutree、kd_tree、

5、brute之一。当传递默认值“auto”时,算法尝试从训练数据中确定最佳方法。FindingtheNearestNeighbors fromsklearn.neighborsimportNearestNeighbors importnumpyasnp X=np.array(-1,-1,-2,-1,-3,-2,1,1,2,1,3,2)nbrs=NearestNeighbors(n_neighbors=2,algorithm=ball_tree).fit(X)distances,indices=nbrs.kneighbors(X)indicesarray(0,1,1,0,2,1,3,4,4,3,5

6、,4.)distancesarray(0.,1.,0.,1.,0.,1.41421356,0.,1.,0.,1.,0.,1.41421356)NearestNeighborsClassificationscikit-learnimplementstwodifferentnearestneighborsclassifiers:KNeighborsClassifier基于每个查询点的k个最近邻来实现学习,其中k是用户指定的整数值RadiusNeighborsClassifier基于每个训练点固定半径r内的邻域数来实现学习,其中r是用户指定的浮点值。sklearn.neighbors.KNeighb

7、orsClassifier X=0,1,2,3 y=0,0,1,1 fromsklearn.neighborsimportKNeighborsClassifier neigh=KNeighborsClassifier(n_neighbors=3)neigh.fit(X,y)KNeighborsClassifier(.)print(neigh.predict(1.1)0 print(neigh.predict_proba(0.9)0.666666670.33333333sklearn.neighbors.RadiusNeighborsClassifier X=0,1,2,3 y=0,0,1,1

8、fromsklearn.neighborsimportRadiusNeighborsClassifier neigh=RadiusNeighborsClassifier(radius=1.0)neigh.fit(X,y)RadiusNeighborsClassifier(.)print(neigh.predict(1.5)0NearestCentroidClassifierTheNearestCentroid(最近质心分类)classifierisasimplealgorithmthatrepresentseachclassbythecentroidofitsmembers.Ineffect,

9、thismakesitsimilartothelabelupdatingphaseofthesklearn.KMeansalgorithm.Italsohasnoparameterstochoose,makingitagoodbaselineclassifier.Itdoes,however,sufferonnon-convexclasses,aswellaswhenclasseshavedrasticallydifferentvariances,asequalvarianceinalldimensionsisassumed.分类器的每个成员的质心都是由一个简单的质心表示的。实际上,这使其类似

10、于sklearn.KMeans公司算法。它也没有参数可供选择,这使得它成为一个很好的基线分类器。然而,在非凸类上,以及当类具有完全不同的方差时,它确实受到影响,因为假设所有维度的方差相等。fromsklearn.neighbors.nearest_centroidimportNearestCentroid importnumpyasnp X=np.array(-1,-1,-2,-1,-3,-2,1,1,2,1,3,2)y=np.array(1,1,1,2,2,2)clf=NearestCentroid()clf.fit(X,y)NearestCentroid(metric=euclidean,

11、shrink_threshold=None)print(clf.predict(-0.8,-1)1NearestNeighborsRegressionscikitlearn实现了两个不同的邻居回归函数:KneighborsRegregator基于每个查询点的最近邻来实现学习,其中是用户指定的整数值radiusNeighborsRegressor基于查询点固定半径内的邻居进行学习,其中是用户指定的浮点值。sklearn.neighbors.KNeighborsRegressor y=0,0,1,1 fromsklearn.neighborsimportKNeighborsRegressor ne

12、igh=KNeighborsRegressor(n_neighbors=2)neigh.fit(X,y)KNeighborsRegressor(.)print(neigh.predict(1.5)0.5sklearn.neighbors.RadiusNeighborsRegressor X=0,1,2,3 y=0,0,1,1 fromsklearn.neighborsimportRadiusNeighborsRegressor neigh=RadiusNeighborsRegressor(radius=1.0)neigh.fit(X,y)RadiusNeighborsRegressor(.)p

13、rint(neigh.predict(1.5)0.5Bayesian Classification贝叶斯分类器与决策树决策树:预测类标签贝叶斯分类器:统计分类器;预测类成员概率基于Bayes定理的后验概率估计天真的贝叶斯分类器:假设属性独立的简单分类器适用于大型数据库时效率高在性能上可与决策树相媲美Posterior Probability设X是一个类标签未知的数据样本假设X属于一个特殊的类CiP(Hi|X)是以X为条件的Hi的后验概率给定X的属性值,数据示例X属于类Ci的概率e、g.,给定X=(年龄:31岁40,收入:中等,学生:是,学分:一般),X购买电脑的概率是多少?Bayes Theo

14、rem分类意味着确定所有C1,Cm类中P(Hi|X)的最高值如果P(H1|X)P(H0|X),则X购买计算机如果P(H0|X)P(H1|X),则X不购买计算机用Bayes定理计算P(Hi|X)Class Prior ProbabilityP(Hi)是X属于特定类Ci的类先验概率可以从训练数据样本中用ni/n估计n是训练数据样本的总数ni是类Ci的训练数据样本数Class Prior ProbabilityP(Hi)is class prior probability that X belongs to a particular class Ci Can be estimated by ni/n

15、 from training data samples n is the total number of training data samples ni is the number of training data samples of class CiDescriptor Prior ProbabilityP(X)是X的先验概率观察X属性值的概率假设X=(x1,x2,xd),它们是独立的,那么P(X)=P(x1)P(x2)P(xd)P(xj)=nj/n,其中nj是属性Aj的值为xj的训练示例数n是训练样本的总数所有类的常数Descriptor Prior ProbabilityDescri

16、ptor Posterior ProbabilityP(X|Hi)是给定Hi的X的后验概率在Ci类中观察X的概率假设X=(x1,x2,xd),它们是独立的,那么P(X|Hi)=P(x1|Hi)P(x2|Hi)P(xd|Hi)P(xj|Hi)=ni,j/ni,其中ni,j是类Ci中属性Aj的值为xj的训练示例数ni是Ci中训练实例的个数Descriptor Posterior ProbabilityP(X|Hi)is posterior probability of X given Hi Probability that observe X in class Ci Assume X=(x1,x2

17、,xd)and they are independent,then P(X|Hi)=P(x1|Hi)P(x2|Hi)P(xd|Hi)P(xj|Hi)=ni,j/ni,where ni,j is number of training examples in class Ci having value xj for attribute Aj ni is number of training examples in CiDescriptor Posterior ProbabilityP(X|Hi)is posterior probability of X given Hi Probability t

18、hat observe X in class Ci Assume X=(x1,x2,xd)and they are independent,then P(X|Hi)=P(x1|Hi)P(x2|Hi)P(xd|Hi)P(xj|Hi)=ni,j/ni,where ni,j is number of training examples in class Ci having value xj for attribute Aj ni is number of training examples in CiBayesian Classifier Basic EquationWeather Dataset

19、ExampleWeather Dataset Example:Classifying XAnunseensampleX=P(p)P(X|p)=P(p)P(rain|p)P(hot|p)P(high|p)P(false|p)P(n)P(X|n)=P(n)P(rain|n)P(hot|n)P(high|n)P(false|n)Weather Dataset Example:Classifying XGivenatrainingset,wecancomputeprobabilities:AnunseensampleX=P(p)P(X|p)=P(p)P(rain|p)P(hot|p)P(high|p)

20、P(false|p)=9/143/92/93/96/9=0.010582Weather Dataset Example:Classifying XGivenatrainingset,wecancomputeprobabilities:AnunseensampleX=P(p)P(X|p)=0.010582P(n)P(X|n)=P(n)P(rain|n)P(hot|n)P(high|n)P(false|n)=5/142/52/54/52/5=0.018286Weather Dataset Example:Classifying XGivenatrainingset,wecancomputeprob

21、abilities:AnunseensampleX=P(p)P(X|p)=0.010582P(n)P(X|n)=0.018286SampleX isclassifiedinclassn(dont play)Avoiding the Zero-Probability ProblemDescriptorposteriorprobabilitygoesto0ifanyofprobabilityis0:Ex.Supposeadatasetwith1000tuplesforaclassC,income=low(0),income=medium(990),andincome=high(10)UseLapl

22、acian correction(orLaplacianestimator)Adding1toeachcaseProb(income=low|H)=1/1003Prob(income=medium|H)=991/1003Prob(income=high|H)=11/1003Independence Hypothesismakescomputationpossibleyieldsoptimalclassifierswhensatisfiedbutisseldomsatisfiedinpractice,asattributes(variables)areoftencorrelatedAttempt

23、stoovercomethislimitation:Bayesiannetworks,thatcombineBayesianreasoningwithcausalrelationshipsbetweenattributessklearn.naive_bayes在朴素的贝耶斯模块实现朴素贝叶斯算法。这些是基于Bayes定理和强(天真)特征独立性假设的有监督学习方法。sklearn.naive_bayes.CategoricalNBNaiveBayesclassifierforcategoricalfeaturesnaive_bayes.GaussianNBGaussianNaiveBayes(G

24、aussianNB)naive_bayes.MultinomialNB(alpha,.)NaiveBayesclassifierformultinomialmodelsnaive_bayes.BernoulliNB(alpha,binarize,.)NaiveBayesclassifierformultivariateBernoullimodels.sklearn.naive_bayesnaive_bayes.GaussianNBGaussianNaiveBayes(GaussianNB)importimport numpynumpy asas npnp X=np.array(-1,-1,-2,-1,-3,-2,1,1,2,1,3,2)Y=np.array(1,1,1,2,2,2)fromfrom sklearn.naive_bayessklearn.naive_bayes importimport GaussianNB clf=GaussianNB()clf.fit(X,Y)GaussianNB()printprint(clf.predict(-0.8,-1)1

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(FAFU机器学习 07-1NNndayes中文.pptx)为本站会员(最好的沉淀)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|