HDFS工作流程和机制

news/2024/5/20 0:49:39 标签: hdfs, hadoop, 大数据

HDFS写数据流程(上传文件)

核心概念--Pipeline管道

HDFS在上传文件写数据过程中采用的一种传输方式。

线性传输:客户端将数据写入第一个数据节点,第一个数据节点保存数据之后再将快复制到第二个节点,第二节点复制给第三节点。

ACK应达响应:确认字符

在数据通信中,接受方发给发送方的一种传输类控制字符。表示发来的数据已经确认接受无误。

在HDFS Pipeline管道传输数据过程中,传输的反方向会进行ACK校验,确保数据传输安全。

默认3副本存储策略

默认副本存储策略是由BlockPlacementPolicyDefualt指定

第一块副本:优先客户端本地,否则随机

第二块副本:不同于第一块副本的不同机柜

第三块副本:第二块副本相同机架不同机器

流程

1.HDFS客户端创建实例对象DistributedFileSystem,该对象中封装了与HDFS文件系统操作的相关方法

2.调用DistributedFileSystem对象的Create()方法,通过RPC请求NameNode创建文件。NameNode执行各种检查判断:目标文件是否存在,父目录是否存在,客户端是否具有创建该文件的权限。检查通过,NameNode就会成为本次请求下一条记录,返回FSDataOutPutStream输入流对象给客户端用于写入数据。

3.客户端通过FSDateOutput输入流开始写入数据

4.客户端写入数据时,将数据分成一个个数据包默认64K,内部组件DataStream请求N阿门哦的挑选出合适的存储数据副本DataNode地址,默认是3副本存储。

5.传输的反方向上,会通过ACK机制校验数据数据包传输是否成功;

6.客户端完成写入后,在FSDDataOutPutStream输出流上调用close()方法关闭

7.DistributedFileSystem联系NameNode告知其文件写入完成,等待NameNode确认。

MapReduce的核心思想(先分后合,分而治之)

1.Map表示第一个阶段,负责拆分“拆分”,即把复杂的任务分解成若干个“简单的子任务”来并行处理。可以进行拆分的前提是这些小任务可以进行并行计算,彼此间没有依赖关系。

2.reduce是第二阶段,负责合并:即对map阶段的结果进行全局汇总

3.这两个阶段合起来正是MapReduce的思想

Hadoop MapReduce 的设置构思

Map:对一组数据元素进行某种重复式的处理

Reduce:对Map的中间结果进行某种进一步的结果整理

分布式式计算是一种方法,和集中计算是相对的。

分布式计算是将应用分解成许多晓得部分,分配给多个多台计算机进行处理

MapReduce实例进程

一个完整的MapReduce程序在分布式运行时有三类


http://www.niftyadmin.cn/n/5130002.html

相关文章

[javaweb]——spring框架之控制反转(IOC)与依赖注入(DI)

🌈键盘敲烂,年薪30万🌈 目录 一、概念介绍 二、示例演示 2.1 代码高内聚问题 2.2 三层架构 2.3 分层解耦 2.4 分层解耦的实现 📕总结 一、概念介绍 控制反转:简称IOC,对象的创建控制权由程序自身转…

Python中如何使用ThreadPoolExecutor一次开启多个线程

目录 一、ThreadPoolExecutor的创建与使用 二、处理并发执行结果 三、异常处理 五、使用多线程注意事项 总结 在Python中,ThreadPoolExecutor是concurrent.futures模块提供的一种线程池类。它能够以线程的形式执行可调用对象,并允许您在执行过程中获…

C++模拟实现-----日期计算器(超详细解析,小白一看就会!)

目录 一、前言 二、日期类计算器 三、日期计算器的实现 🍎日期计算器各个接口的实现 🍐日期计算器的需求 🍉打印当前日期(并检查日期是否合理) 💦检查日期是否合理 💦日期类构造函数&#x…

22款奔驰GLS450升级香氛负离子 清除异味

香氛负离子系统是由香氛系统和负离子发生器组成的一套配置,也可以单独加装香氛系统或者是负离子发生器,香氛的主要作用就是通过香氛外壳吸收原厂的香水再通过空调管输送到内饰中,而负离子的作用就是安装在空气管中通过释放电离子来打击空气中…

人脸识别测试数据分析

一个人脸识别研究小组对若干名学生做了人脸识别的测试,将测试结果写入到一个文件 dir_50.txt 中,每一行是一张照片的识别结果“_照片编号”“.jpg”的字符串组合,示例如下: [1709020621, 0]_116.jpg [1709020621]_115.jpg [17706…

剖析C语言中的自定义类型(结构体、枚举常量、联合)兼内存对齐与位段

目录 前言 一、结构体 1. 基本定义与使用 2. 内存对齐 3. 自定义对齐数 4. 函数传参 二、位段 三、枚举 四、联合(共同体) 总结​​​​​​​ 前言 本篇博客将介绍C语言中的结构体(struct)、枚举(enum&…

Linux系统中,查找文件位置

命令含义find定位目录层次结构中的文件。xargs处理定位到的文件列表(以及更多)。locate创建文件索引,并搜索包含某字符串的索引。which定位搜索路径(命令)中的可执行文件。type定位搜索路径(bash内置)中的可执行文件。whereis定位可执行文件,文档和源文件。对于查找任何…

数据结构顺序表(定长与不定长)用c语言实现

目录 1.线性表的定义 2. 定长顺序表 2.1 定长顺序表的结构 2.2 结构示意图 2.3 实现顺序表的操作(重点) 3.不定长顺序表 3.1 不定长顺序表结构 3.2 结构示意图 3.3 不定长顺序表的实现(重点) 4.顺序表总结 1.线性表的定义 存在唯一的一个被称…