2.HDFS 架构

目录

  • 概述
  • 架构
    • HDFS
    • 副本
    • HDFS数据写入流程
    • NN 工作原理
    • DN 工作原理
  • 结束

概述

官方文档快递

环境:hadoop 版本 3.3.6
相关文章速递

架构

HDFS

在这里插入图片描述

HDFS 架构总结如下:

  • a master/slave architecture 一主多从架构
  • a file is split into one or more blocks and these blocks are stored in a set of DataNodes 一个文件会被拆分成1或者多个 block (块),然后存储在 DN 上
  • NameNode:NN
    • file system namespace 文件系统命名空间
    • 执行文件系统的命名空间操作:打开、关闭、重命名文件或者文件目录
    • 记录数据 block (块) 对应的 DN
  • DataNode:DN

HDFS 组件职责

  • NN
    • 维护和管理文件系统的命名空间
    • 副本策略
    • Block 的映射信息
    • 处理客户端读写请求
  • DN
    • 存储 Block
    • 真正执行数据块的读写操作
  • Client
    • 与 NN 交互,获取到文件的元数据信息
    • 与 DN 交互,执行数据块的读写操作
    • 管理 HDFS
  • SNN:Secondary NameNode
    • 不是 NN 的热备
    • 分担一些 NN 工作量:定期合并 FsImage Edits 完成后推送到 NN
  • Block

副本

For the common case, when the replication factor is three, HDFS’s placement policy is to put one replica on the local machine if the writer is on a datanode, otherwise on a random datanode in the same rack as that of the writer, another replica on a node in a different (remote) rack, and the last on a different node in the same remote rack.

在这里插入图片描述

上述两个机架,一个机架三台机器。

通常情况下,副本因子为3

  • 第一个副本:client 所处的节点上,如果 client 在集群外,在相同机架上(rack)随机选择一个
  • 第二个副本:在另外一个机架上随机选择一个节点
  • 第三个副本:在第二个副本所在机架上随机选择一个节点(与二个副本不在一个节点)

HDFS数据写入流程

先来张图,如下
在这里插入图片描述

  • 客户端发送请求 put 一个文件,由 NN 根据元数据判断文件是否存在,是否具备权限,根据副本摆放策略,返回响应数据给 client 端
  • client 根据响应数据,将第一个 block 写入 DN1 , DN1、DN2、DN3 之间会同步数据,而不是由 client 执行

NN 工作原理

老规矩上个图易理解
在这里插入图片描述
重点总结如下:

  • NN 元数据采取的是 内存+磁盘的方式管理
    • FsImage
    • Edits 每次操作都以追加的方式写入日志
    • 完整的元数据信息 = FsImage + Edits
  • 相关配置
    • dfs.namenode.checkpoint.txns
    • dfs.namenode.checkpoint.period

DN 工作原理

老规矩上图
在这里插入图片描述

  • 向 NN 发起注册
  • Block 信息汇报
    • dfs.blockreport.intervalMsec
  • DN 发起心跳
    • ​dfs.heartbeat.interval (默认 3秒)
    • dfs.namenode.heartbeat.recheck-interval (再次 recheck 默认 5分钟)
  • 超时掉线 10分钟30秒 检测不到心跳,直接掉线
    • timeout = 2 * heartbeat.recheck.interval + 10 * dfs.heartbeat.interval

结束

至此,HDFS 架构 就结束了,如有疑问,欢迎评论区留言。


http://www.niftyadmin.cn/n/5304891.html

相关文章

信息学奥赛一本通2066:【例2.3】买图书

2066:【例2.3】买图书 时间限制: 1000 ms 内存限制: 65536 KB 提交数: 105166 通过数: 61520 【题目描述】 已知小明有n元,他买了一本书,这本书原价为m元,现在打8折出售。求小明还剩多少钱(保留2位小数)。 【输入】 …

Mybatis动态SQL注解开发操作数据库

通过Mybatis的动态注解开发,只需要在映射文件中使用注解来配置映射关系,从而无需编写XML映射文件。常用的注解有Select,Update,Insert,Delete等,它们分别用于配置查询,更新,插入和删…

基于gamma矫正的照片亮度调整(python和opencv实现)

import cv2 import numpy as npdef adjust_gamma(image, gamma1.0):invGamma 1.0 / gammatable np.array([((i / 255.0) ** invGamma) * 255 for i in np.arange(0, 256)]).astype("uint8")return cv2.LUT(image, table)# 读取图像 original cv2.imread("tes…

Gin:GoLang语言Web应用快速入门

目录 引言 一、安装Go 二、安装Gin框架 三、创建项目 1. 创建项目目录: 2. 初始化Go模块: 四、编写Hello World程序 1. 创建主文件: 2. 编辑文件: 五、运行程序 六、总结 引言 Gin是用Go语言编写的一个极为高效和流行的Web框架,以其高性能和简洁性而闻名…

透明触摸屏展示柜的安装,需要注意什么

透明触摸屏展示柜的安装需要注意以下几个方面: 确定安装位置:选择一个合适的位置,确保展示柜的摆放位置合理,便于观看和管理。同时,要考虑到电源和信号线的连接,以及展示柜与周围环境的协调性。 检查透明触…

Typescript基础知识:函数类型和箭头函数

在 TypeScript 中,函数是一项重要的特性,它们允许我们组织和重用代码。本文将介绍 TypeScript 中的函数类型和箭头函数,并提供示例代码来说明其用法和优势。 一、函数类型声明 在 TypeScript 中,我们可以使用函数类型声明来指定函…

Scikit-Learn线性回归(五)

Scikit-Learn线性回归五:岭回归与Lasso回归 1、误差与模型复杂度2、正则化3、Scikit-Learn岭(Ridge)回归4、Scikit-Learn Lasso回归 1、误差与模型复杂度 在第二篇文章 Scikit-Learn线性回归(二) 中,我们已经给出了过拟合与模型泛…

目标检测中的常见指标

概念引入&#xff1a; TP&#xff1a;True Positive IoU > 阈值 检测框数量 FP: False Positive IoU < 阈值 检测框数量 FN: False Negative 漏检框数量 Precision:查准率 Recall:查全率&#xff08;召回率&#xff09; AP&am…