Hadoop概况

news/2024/5/20 1:30:04 标签: hadoop, 大数据, hdfs

目录

1、Hadoop是什么

1.1、狭义上的Hadoop:

1.2、广义上的Hadoop:

 1.3、Hadoop核心组件:

2、Hadoop特性优点

3、Hadoop架构变迁

 4、Hadoop集群

 HDFS集群和YARN集群逻辑上分离,物理上一起

1、Hadoop是什么

1.1、狭义上的Hadoop:

狭义上Hadoop指的是Apache软件基金会的一款开源软件

​		用java语言实现,开源

​		允许用户使用简单的编程模型实现跨机器集群对海量数据进行分布式计算处理

1.2、广义上的Hadoop:

广义上的Hadoop指的是围绕Hadoop打造的大数据生态圈


        HDFS作为分布式文件存储系统,处在生态圈底层与核心地位

​        YARN作为分布式通用的集群资源管理系统和任务调度平台,支撑各种计算引擎运行,保证了hadoop地位

​        MapReduce作为大数据生态圈第一代分布式计算引擎,由于自身设计的模型所产生的的弊端,导致企业一线几乎不再直接使用MapReduce进行编程计算,但是很多软件的底层任然在使用MapReduce引擎来处理数据 

 1.3、Hadoop核心组件:

        HDFS(分布式文件存储系统):解决海量数据存储

​        YARN(集群资源管理和任务调度框架):解决资源任务调度

​        MapReduce(分布式计算框架):解决海量数据计算

###################################################### 

2、Hadoop特性优点

        扩容能力强

​                Hadoop实在可用的计算机集群间分配数据并完成计算任务的,
​                这些集群可方便灵活的方式扩展到数以千计的节点。

​        成本低

​                Hadp允许通过部署普通廉价的机器组成集群来处理大数据,以至于成本很低,着重的是集群整体能力

​        效率高

​                通过并发数据,Hadoop可以在节点之间动态并行的移动数据,使得速度非常快

​        可靠性

​                能自动维护数据的多份复制,并且在任务失败后能自动的重新部署(redeploy)计算任务,
​                所以Hadoop的按位存储和处理数据能力值的人们信赖

######################################################  

3、Hadoop架构变迁

        Hadoop1.0:

​                HDFS(分布式文件存储)
​                MapReduce(资源管理和分布式数据处理)

​        Hadoop2.0:

​                HDFS(分布式文件存储)
​                MapReduce(资源管理和分布式数据处理)
​                YARN(集群资源管理,任务调度)

​        Hadoop3.0:

​                通用方面:
​                精简内核,类路径隔离,shell脚本重构

​                Hadoop HDFS:
​                EC纠删码,多nameNode支持

​                Hadoop MapReduce:
​                任务本地化优化,内存参数自动推断

​                Hadoop YARN:
​                Timeline Service V2、队列配置

######################################################  

 4、Hadoop集群

Hadoop集群包括两个集群:HDFS集群,YARN集群

        两个集群逻辑上分离,通常物理上一起
​        两个集群都是标准的主从架构集群

​        HDFS集群:
​                主角色:NameNode
​                从角色:DataNode
​                主角色辅助角色:SecondaryNameNode

​        YARN集群:
​                主角色:ResourceManager
​                从角色:NodeManager

 HDFS集群和YARN集群逻辑上分离,物理上一起

逻辑上分离指的是HDFS集群和YARN集群互相之间没有依赖,不是必须启动一个才能启动另一个,互不影响。
但是在物理层面,两个集群的进程又可能部署在一台机器上面。
MapReduce是计算框架,代码层面的组件,没有集群之说


http://www.niftyadmin.cn/n/183451.html

相关文章

【vue】计算属性及其缓存特性

基础示例 模板中的表达式虽然方便,但也只能用来做简单的操作。如果在模板中写太多逻辑,会让模板变得臃肿,难以维护。比如说,我们有这样一个包含嵌套数组的对象: export default {data() {return {author: {name: Joh…

ORACLE not available报错处理办法

用sqlplus的时候 连接用户总是出现ORACLE not available 解决办法: 第一步: 输入sqlplus 再输入用户名: sys as sysdba 输入口令: 已连接到空闲例程。 第二步: 先连接到管理员用户下将用例开启 SQL> startup; ORACLE 例程已经启动。 然后就会出现…

【问题描述】编写一个程序,读入 N 个同学的姓名和语数外三门功课的单科成绩,对其按照一定的排序规则排序形成一张成绩表。

【问题描述】 编写一个程序,读入 N 个同学的姓名和语数外三门功课的单科成绩,对其按照一定的排序规则排序形成一张成绩表(先按总分从高到低排序,总分相同则按语文成绩由高到低排序,仍然相同则按数学成绩由高到低排序&…

火速上线zkSync Era主网,盘点SpaceFi的Web3布局

最近zkSync Era主网的上线引发了市场对Layer2的和零知识证明技术的关注,而作为Web3跨链应用平台的SpaceFi也在第一时间对zkSync Era进行了支持,并与3月28日上线DEX、Farm、Plant NFT等多个产品,一时间成为zkSync上的热门生态项目。打造一站式…

22 - 二叉树(四)

文章目录一、 二叉搜索树的最近公共祖先1. 二叉搜索树的最近公共祖先2. 二叉树的最近公共祖先3. 从二叉树中找到两个节点的最近公共祖先二、重建二叉树1. 从先序和中序遍历序列构造二叉树2. 从中序和后序遍历序列构造二叉树一、 二叉搜索树的最近公共祖先 1. 二叉搜索树的最近…

crm客户管理系统的功能有哪些?

CRM客户管理系统的功能有哪些? CRM客户管理系统是一种能够帮助企业管理客户关系的软件系统,它包括了客户信息管理、销售管理、客户服务管理、营销管理和数据分析等功能,能够帮助企业更好地了解客户需求,优化销售流程,…

redis命令汇总

monitor命令 通过执行monitor命令,可将客户机更改为监视器,实时打印出 Redis 服务器接收到的命令。可以通过这个命令去捕获意料之外的命令是从哪里发过来的。 $ redis-cli monitor 格式:sec.usec [db_id 客户端ip:端口] 命令及参数 1339518083.107412 […

三分钟带你入门MySQL---表的增删改查

文章目录 前言 一. 新增 1. 全列插入 2. 指定列插入 3. 效率问题 二. 查询(Retrieve) 1. 全列查询(整表查询) 2. 指定列查询 3. 指定字段表达式运算查询 4. 将表达式或字段指定别名查询 5. 去重查询 6. 排序查询 7. 条件查询 8. 分页查询 三. 修改(Update) 四. 删除(Delete) 前…