基于MapReduce的knn连接方法课件.ppt

上传人(卖家):晟晟文业 文档编号:4067743 上传时间:2022-11-08 格式:PPT 页数:12 大小:679.87KB
下载 相关 举报
基于MapReduce的knn连接方法课件.ppt_第1页
第1页 / 共12页
基于MapReduce的knn连接方法课件.ppt_第2页
第2页 / 共12页
基于MapReduce的knn连接方法课件.ppt_第3页
第3页 / 共12页
基于MapReduce的knn连接方法课件.ppt_第4页
第4页 / 共12页
基于MapReduce的knn连接方法课件.ppt_第5页
第5页 / 共12页
点击查看更多>>
资源描述

1、基于MapReduce的Knn连接方法-谢荣东论文观点展示Knn连接即K最近邻(kNN,k-NearestNeighbor)连接解决的问题:找出一个样本在特征空间中的k个最相邻的样本,根据其中的大多数属于某一个类别,来判断该样本也属于这个类别,并具有这个类别上样本的特性。不足之处:计算量较大,因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K个最近邻点。H-BNLJ(Hadoop Block Nested Loop Join)的方法简介:是一种直接的局部暴力解决KNN连接的算法,它利用MapReduce的循环嵌套算法。基本思想:把待连接的两个集合R和S分割成大小相等的n块,

2、这里可以通过线性扫描的方法来进行,每个块中分别包含有|R|/n(或|S|/n)个元素。然后,在Map阶段,每个连接块包含一个来自于R的分割块一个来自于S的分割块(也就是总共有n2个连接块)。在Reduce阶段,采用了n2个reduce来处理每个mapper生成的中间结果。每个reduce在本地嵌套执行局部R和S的Knn连接,也就是,对每个局部块中的S通过嵌套循环找到在局部快中的R的knn。所有来自reduce的结果写入(n2)DFS文件再进行排序。H-BNLJ的问题本质上是暴力解法未采用索引,当数据量大时,不能有效从外存(DFS)数据加载到内存中DSGMR-J((Distributed Sketched Grid)引入分布式概略化网格索引来对数据进行划分和索引 基本思想:先对数据进行网格化划分,根据R和S的变化范围生成m2个栅格,其中每个栅格的x和y变化范围为intervalx和intervaly。每个R或S中的元素根据它的x和y坐标确定所属的栅格。对每个栅格而言,我们分布地创建了对应于此栅格的分布式索引DSG。这样,每个reduce可以快速地通过本地DSG索引来发现本地Knn而避免嵌套循环。R的空间范围:S的空间范围:相对应的空间范围:根据公式进行拓展,需要两次MapReduce基于R树的MapReduce-knn连接

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(基于MapReduce的knn连接方法课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|