HDFS读数据流程

news/2024/5/20 1:15:46 标签: hdfs, hadoop, java

 

1)客户端通过Distributed FileSystem向NameNode请求下载文件,NameNode通过查询元数据,找到文件块所在的DataNode地址。

2)挑选一台DataNode(就近原则,然后随机)服务器,请求读取数据。

3)DataNode开始传输数据给客户端(从磁盘里面读取数据输入流,以Packet为单位来做校验)。

4)客户端以Packet为单位接收,先在本地缓存,然后写入目标文件。

另一版本

1、 Client 向 NameNode 发起 RPC 请求,来确定请求文件 block 所在的位置;

2、 NameNode会视情况返回文件的部分或者全部block列表,对于每个block,

NameNode 都会返回含有该 block 副本的 DataNode 地址;

3、 这些返回的 DN 地址,会按照集群拓扑结构得出 DataNode 与客户端的距

离,然后进行排序,排序两个规则:网络拓扑结构中距离 Client 近的排靠前;心跳机制中超时汇报的 DN 状态为 STALE,这样的排靠后;

4、 Client 选取排序靠前的 DataNode 来读取 block,如果客户端本身就是

DataNode,那么将从本地直接获取数据;

5、 底层上本质是建立 Socket Stream(FSDataInputStream),重复的调用

父类 DataInputStream 的 read 方法,直到这个块上的数据读取完毕;

6、 当读完列表的 block 后,若文件读取还没有结束,客户端会继续向NameNode 获取下一批的 block 列表;

7、 读取完一个 block 都会进行 checksum 验证,如果读取 DataNode 时出现

错误,客户端会通知 NameNode,然后再从下一个拥有该 block 副本的DataNode 继续读。

8、 read 方法是并行的读取 block 信息,不是一块一块的读取;NameNode 只

是返回Client请求包含块的DataNode地址,并不是返回请求块的数据;

9、 最终读取来所有的 block 会合并成一个完整的最终文件。


http://www.niftyadmin.cn/n/131794.html

相关文章

春季训练营 | 前端+验证直通车-全实操项目实践,履历加成就业无忧

“芯动的offer”是2023年E课网联合企业全新推出集训培优班(线下),针对有一定基础(linux、verilog、uvm等)在校学生以及想要通过短时间的学习进入到IC行业中的转行人士,由资深IC设计工程师带教,通…

(小甲鱼python)函数笔记合集十二 函数(XI)总结 python高阶函数、functools -- 高阶函数、偏函数(@wraps装饰器)等详解

一、基础复习 函数的基本用法 创建和调用函数 函数的形参与实参等等函数的几种参数 位置参数、关键字参数、默认参数等函数的收集参数*args **args 解包参数详解函数中参数的作用域 局部作用域 全局作用域 global语句 嵌套函数 nonlocal语句等详解函数的闭包(工厂函…

IDEA项目中配置Maven镜像源(下载源)

目录前言一、IDEA中Maven的位置二、修改Maven的配置文件2.1 配置文件2.2 修改镜像源三、在IDEA中使配置文件生效四、配置文件和本地仓库迁移前言 在使用IDEA搭建项目的过程中,我们发现框架的jar包下载非常缓慢,这是因为国内访问Maven仓库速度较低&#…

Kafka 入门 (一)

Kafka 入门(一) Apache Kafka起源于LinkedIn,后来于2011年成为开源Apache项目,然后于2012年成为First-class Apache项目。Kafka是用Scala和Java编写的。 Apache Kafka是基于发布订阅的容错消息系统。 它是快速,可扩展…

【Vue.js】Vuex核心概念

文章目录全局状态管理模式Vuexvuex是什么?什么是“状态管理模式”?vuex的应用场景Vuex安装开始核心概念一、State1、单一状态树2、在 Vue 组件中获得 Vuex 状态3、mapState辅助函数二、Getter三、Mutation1、提交载荷(Payload)2、…

Http状态码一览表

对于很多小白来讲,不了解一点状态码,就不明白自己网站出现不同的状态码后应该怎么处理,下面我们就根据每种系列的状态码为大家详细解释一下: 1**:请求收到,继续处理 2**:操作成功收到&#xff…

【sdx62】sdx62分析代码中Serial Number的寄存器地址及获取Serial Number的方法

计算Serial Number寄存器地址 查看Serial Number ./boot_images/boot/QcomPkg/SocPkg/Library/XBLLoaderLib/boot_info_log.c /* Array of raw fuse addresses and names to be logged during boot loginitialization. Array must be null terminated. */ static struct boot_…

Flink / Scala - 20.Scala API Extensions 扩展

目录 一.引言 二.使用说明 三.Extensions API 1.[DataStream] map => mapWith 2.[DataStream] flatMap => flatMapWith 3.[Data