EMULE中KADEMLIA协议具体实现完整版课件.ppt_163文库

资源描述

1、EMULEEMULE中中KADEMLIAKADEMLIA协议具体实协议具体实现现20072007年年6 6月月1919日日1 1目录Kademlia简介及应用现状节点本地行为节点初始化读取配置文件生成ID构造本地二叉树二叉树生成规则生成k-bucket节点之间的交互行为节点间距离加入网络发送加入网络请求处理请求响应查找查找其他节点查找文件（key）对查找二叉树的使用路由信息的更新现在已知节点是否仍然有效更新二叉树更新k-bucket存储发布节点自身要求其他相关节点存储发布文件信息，其他相关节点存储2 2KADEMLIA简介Kademlia协议是美国纽约大学的 Petar P.Maymounko

2、v和David Mazieres 在2002年发布的一项研究结果Kademlia:A peer-to-peer information system based on the XOR metric。Kademlia 是一种分布式哈希表（DHT）技术，Kademlia通过独特的以异或算法（XOR）为距离度量基础，建立了一种全新的DHT 拓扑结构，相比于其他算法，大大提高了路由查询速度。3 3当前应用现状在2005 年5 月著名的BitTorrent 在4.1.0 版实现基于Kademlia 协议的DHT 技术后，很快国内的BitComet 和BitSpirit 也实现了和BitTorrent 兼

3、容的DHT 技术，实现trackerless 下载方式。另外，emule 中也很早就实现了基于Kademlia 类似的技术（BT中叫DHT，emule 中也叫Kad，），和BT 软件使用的Kad 技术的区别在于key、value 和node ID 的计算方法不同。4 4EMULE中KADEMLIA网络部分CKademlia是整个Kademlia网络的主控类，可以直接开始或者停止Kademlia网，并且含有Process方法来处理日常事务。CPrefs负责处理自身的Kademlia相关信息，如自身的ID等。CRoutingZone，CRoutingBin和CContact三个类组成了每个节点所了

4、解的联系信息以及由这些联系信息所组成的数据结构。CKademliaUDPListener负责处理网络信息。CIndexed负责处理本地存储的索引信息。CSearch，CSearchManager负责处理和搜索有关的操作，其中前者表示的是一个单一的搜索任务，后者负责对所有搜索任务进行处理。CUInt128负责处理一个128位的长整数，并且内置其各种运算。5 5节点本地行为6 6节点初始化读取本地配置文件在emule中，配置文件比较多，用于Kademlia网络的配置文件是：src_index.dat key_index.dat load_index.dat（索引Indexed.cpp）nodes.

5、dat（上次程序启动时连接上的节点 RoutingZone.cpp）preferencesKad.dat(上次程序启动时本地节点的IP、ID、Port信息 Prefs.cpp)生成IDKad 网络中每个节点都有一个160bit 的ID值作为标志符。节点ID 的生成，可以是根据特定信息Hash或者简单的随机生成（emule中ID为随机生成）。在emule中,CUInt128类中定义了ID的生成方式,结点之间ID做的异或运算也在CUInt128里;emule中定义了4个ULong的数组,总共正好是128位；在Prefs.cpp中Init函数中对m_uClientID进行了随机值的设置:m_uCli

6、entID.SetValueRandom();函数中调用 cryptlib中的函数生成16位的数据块,然后填充,填充8次,共128位;7 7构造本地结点二叉树在Kad 网络中，所有节点都被当作一颗二叉树的叶叶子子，并且节点的位置都由其ID值的最短前缀唯一的确定。每一个节点都在本地维护一个二叉树,来标示网络中节点与自己的距离远近,自己则是二叉树的根节点；本地结点二叉树生成规则：最高层的子树，由整颗树不包含自己的树的另一半组成；下一层子树由剩下部分不包含自己的一半组成；依此类推，直到分割完整颗树。8 8每一个节点都在本地维护一个二叉树,来标示网络中节点与自己的距离远近,自己则是二叉树的根节点；否则

7、测量自己和t 的距离，并从自己对应的K 桶中选择个节点的信息给x。在emule中，配置文件比较多，用于Kademlia网络的配置文件是：计算到t 的距离：d(x,y)=x y也就是说,每个结点都对自己附近的情况非常了解,而随着距离的增大,了解的程度不断降低降低。dat（上次程序启动时连接上的节点 RoutingZone.由于每次查询都能从更接近目标节点的K 桶中获取信息，这样的机制保证了每一次递归操作都能够至少获得距离减半（或距离减少1bit）的效果，从而保证整个查询过程的收敛速度为O(logN)，这里N 为网络全部节点的数量。否则测量自己和t 的距离，并从自己对应的K 桶中选择个节点的信

8、息给x。在2005 年5 月著名的BitTorrent 在4.需要说明的是，只有第一步查询的节点101，是节点0011 已经知道的，后面各步查询的节点，都是由上一步查询返回的更接近目标的节点，这是一个递归操作的过程。在Kad 网络中，所有节点都被当作一颗二叉树的叶子，并且节点的位置都由其ID值的最短前缀唯一的确定。另外，emule 中也很早就实现了基于Kademlia 类似的技术（BT中叫DHT，emule 中也叫Kad，），和BT 软件使用的Kad 技术的区别在于key、value 和node ID 的计算方法不同。uint32 CRoutingZone:GetClosestTo没有迅速响应

9、的节点将被迅速排除出候选列表，直到其响应。的新K 桶，并对原K 桶内的节点信息按照新的K 桶前缀值进行重新分配Kademlia协议包括四种远程RPC 操作：PING、STORE、FIND_NODE、FIND_VALUE。生成K-BUCKETK-bucket构造了Kademlia网络的路由表每个节点都保存和自己一定距离范围内的节点信息，k-bucket存储这些信息(IP address,UDP port,Node ID)数据列表。K 桶内部信息存放位置是根据上次看到的时间顺序排列，最近（least-recently）看到的放在头部，最后（most-recently）看到的放在尾部。每个桶都有最大

10、不超过k 个的数据项，这里k 是为平衡系统性能和网络负载而设置的一个常数，但必须是偶数；在emule中k=10k=10。1111由于每个K桶覆盖距离的范围呈指数关系增长，这就形成了离自己近的节点的信息多，离自己远的节点的信息少，从而可以保证路由查询过程是收敛。也就是说,每个结点都对自己附近的情况非常了解,而随着距离的增大,了解的程度不断降低降低。经过证明，对于一个有N 个节点的Kad 网络，最多只需要经过logN 步查询，就可以准确定位到目标节点。1212EMULE中生成K-BUCKET具体实现在RoutingBin.h中定义了一个list：ContactList m_listEntries;

11、即为k-bucketCRoutingZone实际上是一个二叉树，当当前的CRoutingZone类为整个二叉树的叶节点时，这个指向CRoutingBin类型的指针才有意义。（此时CRoutingZone作为网络中的节点应该包含一个k-bucket），由于CRoutingBin中定义了一个ContactList，这个ContactList即为k-bucket。1313节点间交互行为1414KADEMLIA协议的操作与EMULE中对应关系Kademlia协议包括四种远程RPC 操作：PING、STORE、FIND_NODE、FIND_VALUE。PING 操作的作用是探测一个节点，用以判断其是否仍

12、然在线。对应于emule中PING-PONG操作，即发送KADEMLIA_HELLO_REQ和KADEMLIA_HELLO_RES请求STORE 操作的作用是通知一个节点存储一个对。对应emule中publish操作以及Store操作FIND_NODE 操作使用一个160bit 的ID 作为参数。本操作的接受者返回它所知道的更接近目标ID 的K 个节点的(IP address,UDP port,Node ID)信息。对应emule中查找节点的操作FIND_VALUE 操作和FIND_NODE 操作类似，不同的是它只需要返回一个节点的(IP address,UDP port,Node ID)信息

13、。如果本操作的接受者收到同一个key 的STORE 操作，则会直接返回存储的value 值。对应emule中文件检索的操作1515节点间距离节点间距离判断两个节点x,y 的距离远近是基于数学上的异或的二进制运算，d(x,y)=x y，既对应位相同时结果为0，不同时结果为1。异或操作具有如下性质：非负性对称性三角不等式单向性传递性异或运算提供了一种在Kad网络上进行可靠距离度量的方法。假如Kad网络上所有其他用户都按照和你之间距离的远近而排成一条长队，如果已知另一个结点的ID，那么你很容易计算出他在这条长队中的位置；如果给定一个距离，你也能很容易从这条长队里找出与你的距离最接近给定距离的那些结点

14、。1616EMULE中节点距离计算的具体实现CUInt128类根据128位ID值进行异或运算，得到节点之间距离CRoutingZoneuint32 CRoutingZone:GetClosestToCRoutingBin节点之间距离具体运算是在查找和发布时进行的，此时CRoutingBin中的k-bucket需要计算节点之间的距离来确定查找的递进性以及应该发布到哪些节点uint32 CRoutingBin:GetClosestTo1717节点加入网络如果节点u 要想加入Kad网络，它必须要和一个已经在Kad 网络的节点，比如w，取得联系。u 首先把w 插入自己适当的K桶中，然后对自己的节点ID

15、执行一次FIND_NODE 操作，然后根据接收到的信息更新自己的K 桶内容。通过对自己邻近节点由近及远的逐步查询，u完成了仍然是空的K 桶信息的构建，同时也把自己的信息发布到其他节点的K 桶中。在Kad 网络中，每个节点的路由表都表示为一颗二叉树，叶子节点为K 桶，K 桶存放的是有相同ID 前缀的节点信息，而这个前缀就是该K 桶在二叉树中的位置。这样，每个K 桶都覆盖了ID 空间的一部分，全部K 桶的信息加起来就覆盖了整个160bit 的ID空间，而且没有重叠。以节点u 为例，其路由表的生成过程为：1 最初，u 的路由表为一个单个的K 桶，覆盖了整个160bitID空间;2 当学习到新的节点

16、信息后，则u 会尝试把新节点的信息，根据其前缀值插入到对应的K 桶中：如果该K 桶没有满，则新节点直接插入到这个K 桶中；如果该K 桶已经满了，如果该K 桶覆盖范围包含了节点u的ID，则把该K 桶分裂为两个大小相同的新K 桶，并对原K 桶内的节点信息按照新的K 桶前缀值进行重新分配如果该K 桶覆盖范围没有包节点u 的ID，则直接丢弃该新节点信息3 上述过程不断重复，最终会形成表1 结构的路由表。达到距离近的节点的信息多，距离远的节点的信息少的结果，保证了路由查询过程能快速收敛。1818节点000的路由表生成演化1919节点0100的K-BUCKET分裂过程2020当K 桶010 满了之后，由

17、于其覆盖范围包含了节点0100 的ID，故该K 桶分裂为两个新的K 桶：0101和0100，原K 桶010 的信息会根据其其前缀值重新分布到这两个新的K 桶中。注意，这里并没有使用160bit 的ID 值表示法，只是为了方便原理的演示，实际Kad 网络中的ID值都是160bit的。2121节点加入网络发送加入请求处理请求响应采用ping-pong机制机制CKademliaUDPListener类中函数ProcessPacket处理所有类型的消息2222节点查找以及文件查找查找其他节点查找文件（key）对查找二叉树的使用2525查找其他节点在Kademlia网络中，节点搜索的实现方式是迭代式的搜

18、索。这种方式就是说当开始搜索某个ID时，在本地联系人信息列表中查找到距离最近的联系人，然后向它们发出搜索请求，这样通常都能够得到一些距离更近的联系人信息，然后再向它们发送搜索请求，通过不断得进行这样的搜索查询，就能够得到距离目标ID最近的那些联系人信息。这里对应的消息代码是KADEMLIA_REQ和KADEMLIA_RES。由于每次查询都能从更接近目标节点的K 桶中获取信息，这样的机制保证了每一次递归操作都能够至少获得距离减半（或距离减少1bit）的效果，从而保证整个查询过程的收敛速度为O(logN)，这里N 为网络全部节点的数量。2626假如节点x 要查找ID 值为t 的节点，Kad按照如下

19、递归操作步骤进行路由查找：计算到t 的距离：d(x,y)=x y从x 的第 d个K 桶中取出个节点的信息（“”是取整符号），同时进行FIND_NODE 操作。如果这个K 桶中的信息少于个，则从附近多个桶中选择距离最接近d 的总共个节点。对接受到查询操作的每个节点，如果发现自己就是t，则回答自己是最接近t 的；否则测量自己和t 的距离，并从自己对应的K 桶中选择个节点的信息给x。x 对新接收到的每个节点都再次执行FIND_NODE 操作，此过程不断重复执行，直到每一个分支都有节点响应自己是最接近t 的。没有迅速响应的节点将被迅速排除出候选列表，直到其响应。通过上述查找操作，x 得到了k 个最

20、接近t 的节点信息。2727查找步骤ALPHA=1时查询流程2828查找文件当用户使用Kademlia网络来进行搜索并且下载文件的时候，首先是对一个关键词进行搜索对一个关键词进行搜索，由于使用的是同样的hash算法，这样它只要找到ID值和计算出来的hash值结果相近的联系人信息后，它就可以直接向它们发送搜索特定关键词的请求了。如果得到了返回信息，那么搜索者就知道了这个关键词对应了多少文件，然后把这些文件的信息都列出来。当用户决定下载某个文件的时候，针对这一特定文件的搜索过程就开始了，这一次如果搜索成功，那么返回的就是这个文件的文件源信息。这样emule接下来就只需要按照这些信息去连接相应的地址

21、，并且使用传统的emule协议去和它们协商下载文件了。这里对应的消息是KADEMLIA_SEARCH_REQ和KADEMLIA_SEARCH_RES。2929当节点x 要查询对时，和查找节点的操作类似，x选择k个ID值最接近key值的节点，执行FIND_VALUE 操作，并对每一个返回的新节点重复执行FIND_VALUE 操作，直到某个节点返回value 值。一旦FIND_VALUE 操作成功执行，则对数据会缓存在没有返回value 值的最接近的节点上。这样下一次查询相同的key 时就会更加快速的得到结果。通过这样的方式，热门对数据的缓存范围就逐步扩大，使系统具有极佳的响应速度30303131

22、二叉树中节点的查找Kad 协议确保每个节点知道其各子树的至少一个节点，只要这些子树非空。在这个前提下，每个节点都可以通过ID值来找到任何一个节点。这个路由的过程是通过所谓的XOR（异或）距离得到的。节点通过在逐步底层的子树间不断学习并查询最佳节点，获得了越来越接近的节点，最终收敛到目标节点上。32323333需要说明的是，只有第一步查询的节点101，是节点0011 已经知道的，后面各步查询的节点，都是由上一步查询返回的更接近目标的节点，这是一个递归操作的过程。由于各节点路由信息的不确定性（节点动态加入和离开引起），图2 只是展示了多种可能搜索路径的一个具体实现。怎么知道的呢？协议里规定的吗34

23、34从x 的第 d个K 桶中取出个节点的信息（“”是取整符号），同时进行FIND_NODE 操作。如果该K 桶没有满，则新节点直接插入到这个K 桶中；EMULE中生成K-BUCKET具体实现假如Kad网络上所有其他用户都按照和你之间距离的远近而排成一条长队，如果已知另一个结点的ID，那么你很容易计算出他在这条长队中的位置；根据128位ID值进行异或运算，得到节点之间距离节点通过在逐步底层的子树间不断学习并查询最佳节点，获得了越来越接近的节点，最终收敛到目标节点上。在Kad 网络中，所有节点都被当作一颗二叉树的叶子，并且节点的位置都由其ID值的最短前缀唯一的确定。每一个节点都在本地维护一个二叉

24、树,来标示网络中节点与自己的距离远近,自己则是二叉树的根节点；对应emule中publish操作以及Store操作通常节点会利用流经自己的节点查询操作来持续更新对应的K 桶信息。否则测量自己和t 的距离，并从自己对应的K 桶中选择个节点的信息给x。当节点x 收到一个PRC 消息时，发送者y 的IP 地址就被用来更新对应的K 桶，具体步骤如下：另外，emule 中也很早就实现了基于Kademlia 类似的技术（BT中叫DHT，emule 中也叫Kad，），和BT 软件使用的Kad 技术的区别在于key、value 和node ID 的计算方法不同。CKademliaUDPListener类中函

25、数ProcessPacket处理所有类型的消息KADEMLIA协议的操作与EMULE中对应关系节点有效性判断节点离开Kad 网络不需要发布任何信息，Kademlia 协议的目标之一就是能够弹性工作在任意节点随时失效的情况下。为此，Kad 要求每个节点必须周期性的发布全部自己存放的对数据，并把这些数据缓存在自己的k 个最近邻居处，这样存放在失效节点的数据会很快被更新到其他新节点上。通常节点会利用流经自己的节点查询操作来持续更新对应的K 桶信息。为了避免没有查询操作经过时而保存了错误信息，节点会对那些在过去一个小时之内没有收到任何节点查询操作的K 桶执行刷新操作（BT 协议实现规定为15 分钟）。

26、所谓刷新操作就是说从该K 桶中选择一个随机的节点信息，并对该节点ID 执行一次FIND_NODE操作。3636更新K-BUCKET当节点x 收到一个PRC 消息时，发送者y 的IP 地址就被用来更新对应的K 桶，具体步骤如下：计算自己和发送者的距离：d(x,y)=x y，x 和y 是ID 值，不是IP 地址通过距离d 选择对应的K 桶进行更新操作。如果y 的IP 地址已经存在于这个K 桶中，则把对应项移到该该K 桶的尾部如果y 的IP 地址没有记录在该K 桶中如果该K 桶的记录项小于k 个，则直接把y 的(IP address，UDP port，Node ID)信息插入队列尾部如果该K桶的记录

27、项大于k个，则选择头部的记录项（假如是节点z）进行RPC_PING操作如果z 没有响应，则从K 桶中移除z 的信息，并把y 的信息插入队列尾部如果z 有响应，则把z 的信息移到队列尾部，同时忽略y 的信息。K 桶的更新机制非常高效的实现了一种把最近看到的节点更新的策略，除非在线节点一直未从K桶中移出过。也就是说在线时间长的节点具有较高的可能性继续保留在K桶列表中。一般来说，最活跃（或者说在线时间更长）的节点信息，有更大的机会留在其他节点的K 桶中，这样可以保持系统稳定和减少节点进出的路由维护代价。对于一个稳定的网络而言，因为各节点一直在线，先加入K 桶的节点不会失效，这样，离自己时延小的节点，就更有机会留在K 桶中，而且各节点的K桶信息是很稳定的。3737存储发布节点自身要求其他相关节点存储发布文件信息，其他相关节点存储存放对数据的过程为：发起者首先定位k 个ID值最接近key 的节点；发起者对这k 个节点发起STORE 操作执行STORE 操作的k 个节点每小时重发布自己所有的对数据。为了限制失效信息，所有对数据在初始发布24 小时后过期。另外，为了保证数据发布、搜寻的一致性，规定在任何时候，当节点w 发现新节点u比w 上的某些对数据更接近，则w把这些对数据复制到u 上，但是并不会从w 上删除。3838

展开阅读全文