Hadoop HDFS(分布式文件系统)

news/2024/5/20 4:09:11 标签: hadoop, hdfs, 大数据
一、Hadoop HDFS(分布式文件系统)

为什么要分布式存储数据

假设一个文件有100tb,我们就把文件划分为多个部分,放入到多个服务器

靠数量取胜,多台服务器组合,才能Hold住

数据量太大,单机存储能力有上限,需要靠数量来解决问题

数量的提升带来的是网络传输,磁盘读写,CUP,内存等各方面的综合提升。分布式组合在一起可以达到

1+1>2的效果

二、大数据体系中,分布式的调度主要有2类架构模式:
1.去(无)中心化模式

去中心化模式,没有明确的中心,众多服务器之间基于特定规则进行同步协调

2.中心化模式

中心化模式

主从模式,大数据框架,大多数的基础架构上,都是符合:中心化模式的

即:有一个中心节点(服务器)来统筹其他服务器的工作,统一指挥,统一调派,避免混乱

这种模式,也被称之为:一主多从模式,简称主从模式(Master And Slaves)

主从模式(中心化模式)在现实生活中同样很常见:
公司企业管理,组织管理,行政管理

我们学习的Hadoop框架,就是一个典型的主从模式(中心化模式)架构的技术框架

三、HDFSHadoop三大组件(HDFSMapReduceYARN)之一

全程是:Hadoop Distributed File SystemHadoop分布文件系统)

Hadoop技术栈内提供的分布式数据存储解决方案

可以在多台服务器上构建存储集群,存储海量的数据

HDFS就是一个典型的主从架构,拥有三个角色,以下就是HDFS的基础架构

1.NameNode:

HDFS系统的主角色,是一个独立的进程

负责管理HDFS整个文件系统

负责管理Datanode

2.Datanode:

HDFS系统的从角色,是一个独立进程

主要负责数据的存储,即存入数据和取出数据

3.SecondaryNameNode:

NameNode的辅助,是一个独立进程

主要帮忙NameNode完成源数据整理工作(打杂)

四、HDFS架构概述

1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。

2)DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。

3)Secondary NameNode(2nn):用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。

五、YARN架构概述

1)ResourceManager(rm):处理客户端请求、启动/监控ApplicationMaster、监控NodeManager、资源分配与调度;

2)NodeManager(nm):单个节点上的资源管理、处理来自ResourceManager的命令、处理来自ApplicationMaster的命令;

3)ApplicationMaster:数据切分、为应用程序申请资源,并分配给内部任务、任务监控与容错。

4)Container:对任务运行环境的抽象,封装了CPU、内存等多维资源以及环境变量、启动命令等任务运行相关


http://www.niftyadmin.cn/n/5142552.html

相关文章

从0开始搭建一个前端项目的架子

目录 1.概述 2.项目搭建 3.elementUI 4.CSS预处理器 5.重置CSS 6.图标库 7.axios和路由 7.1.axios 7.2.路由 7.3.路由懒加载和异步组件 1.概述 在古早时代,只需要会html、css、js、ajax就能开发一个前端项目,这些技术的上手成本也不高&#x…

SOQL使用正则表达式匹配非字母字符

Salesforce SOQL (Salesforce Object Query Language) 不支持正则表达式匹配非字母字符,因为SOQL 的正则表达式功能有限。SOQL 支持的正则表达式操作主要用于匹配文本中的字母和数字字符。 如果您需要在Salesforce中执行正则表达式匹配非字母字符,通常需…

【跟小嘉学 Rust 编程】三十四、Rust的Web开发框架之一: Actix-Web的进阶

系列文章目录 【跟小嘉学 Rust 编程】一、Rust 编程基础 【跟小嘉学 Rust 编程】二、Rust 包管理工具使用 【跟小嘉学 Rust 编程】三、Rust 的基本程序概念 【跟小嘉学 Rust 编程】四、理解 Rust 的所有权概念 【跟小嘉学 Rust 编程】五、使用结构体关联结构化数据 【跟小嘉学…

STM32智能小车(循迹、跟随、避障、测速、蓝牙、wife、4g、语音识别)总结

目录 1.电机模块开发 1.1 让小车动起来 1.2 串口控制小车方向 1.3 如何进行小车PWM调速 1.4 PWM方式实现小车转向 2.循迹小车 2.1 循迹模块使用 2.2 循迹小车原理 2.3 循迹小车核心代码 2.4 循迹小车解决转弯平滑问题 3.跟随/避障小车 3.1 红外壁障模块分析​编辑 …

Variations-of-SFANet-for-Crowd-Counting可视化代码

前文对Variations-of-SFANet-for-Crowd-Counting做了一点基础梳理,链接如下:Variations-of-SFANet-for-Crowd-Counting记录-CSDN博客 本次对其中两个可视化代码进行梳理 1.Visualization_ShanghaiTech.ipynb 不太习惯用jupyter notebook, 这里改成了p…

AI大模型时代网络安全攻防对抗升级,瑞数信息变革“下一代应用与数据安全”

AI与大模型技术加速普及,安全领域也在以创新视角聚焦下一代应用安全WAAP变革,拓展新一代数据安全领域。近日瑞数信息重磅发布了瑞数全新API扫描器、API安全审计、数据安全检测与应急响应系统及分布式数据库备份系统四大新品。此次发布在延续瑞数信息Bot自…

【Linux】Nignx的入门使用负载均衡前端项目部署---超详细

一,Nignx入门 1.1 Nignx是什么 Nginx是一个高性能的开源Web服务器和反向代理服务器。它使用事件驱动的异步框架,可同时处理大量请求,支持负载均衡、反向代理、HTTP缓存等常见Web服务场景。Nginx可以作为一个前端的Web服务器,也可…

Java使用pdfbox进行pdf和图片之间的转换

简介 pdfbox是Apache开源的一个项目,支持pdf文档操作功能。 官网地址: Apache PDFBox | A Java PDF Library 支持的功能如下图.引入依赖 <dependency><groupId>org.apache.pdfbox</groupId><artifactId>pdfbox-app</artifactId><version>…