You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

2.1 KiB

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

!v2-c2f717ff3e4aecd6d756f3f1321468dd_720w.webp

一、概述

datanode是负责当前节点上的数据的管理具体目录内容是在初始阶段自动创建的保存的文件夹位置由hdfs-site.xml文件配置选项{dfs.datanode.data.dir}决定。

  • datanode以数据块的形式存储HDFS文件
  • datanode响应HDFS 客户端读写请求
  • datanode周期性向NameNode汇报心跳信息,数据块信息,缓存数据块信息
  1. 一个数据块在DataNode上以文件形式存储在磁盘上包括两个文件一个是数据本身一个是元数据包括数据块的长度块数据的校验和以及时间戳。
  2. DataNode启动后向NameNode注册通过后周期性1小时的向NameNode上报所有的块信息。
  3. DataNode与NameNode之间有一个心跳事件心跳是每3秒一次心跳返回结果带有NameNode给该DataNode的命令如果超过10分钟没有收到某个DataNode的心跳则认为该节点不可用。
  4. 集群运行中可以安全加入和退出一些机器

二、数据完整性校验

!v2-c2f717ff3e4aecd6d756f3f1321468dd_720w 1.webp

  1. 当DataNode读取Block的时候它会计算CheckSum校验和
  2. 如果计算后的CheckSum与Block创建时值不一样说明Block已经损坏
  3. Client读取其他DataNode上的Block
  4. DataNode在其文件创建后周期验证CheckSum如上图

三、掉线时参数设置

DataNode进程死亡或者网络故障造成DataNode无法与NameNode通信时的TimeOut参数设置

  1. NameNode不会立即把该节点判断为死亡要经过一段时间这段时间称作超时时长
  2. HDFS默认的超时时长为10分钟+30秒
  3. 超时时长的计算公式为:
# dfs.namenode.heartbeat.recheck-interval默认为300000msdfs.heartbeat.interval默认为5s
TimeOut = 2 * dfs.namenode.heartbeat.recheck-interval + 10 * dfs.heartbeat.interval

实际开发的时候,可以根据自己服务器的情况进行调整,比如服务器性能比较低,那么可以适当的把时间调长;如果服务器性能很好,那么可以适当缩短。