Java+大数据开发——HDFS详解

1. HDFS 介绍

• 什么是HDFS

首先，它是一个文件系统，用于存储文件，通过统一的命名空间——目录树来定位文件。

其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色；

• 设计思想

分而治之：将大文件、大批量文件，分布式存放在大量服务器上，以便于采取分而治之的方式对海量数据进行运算分析；

• 在大数据系统中作用：

为各类分布式运算框架（如：mapreduce，spark，tez，……）提供数据存储服务。

• Hdfs整体架构如下

2. HDFS的特性

（1）HDFS中的文件在物理上是分块存储（block）。块的大小可以通过配置参数( dfs.blocksize)来规定，默认大小在hadoop2.x版本中是128M。

（2）HDFS文件系统会给客户端提供一个统一的抽象目录树，客户端通过路径来访问文件，形如：hdfs://namenode:port/dir-a/dir-b/dir-c/file.data。

（3）目录结构及文件分块信息(元数据)的管理由namenode节点承担，namenode是HDFS集群主节点，负责维护整个hdfs文件系统的目录树，以及每一个路径（文件）所对应的block块信息。

（4）文件的各个block的存储管理由datanode节点承担，datanode是HDFS集群从节点，每一个block都可以在多个datanode上存储多个副本（副本数量也可以通过参数设置dfs.replication）。想系统学习大数据的话，可以加入大数据技术学习扣扣君羊：522189307

（5）HDFS是设计成适应一次写入，多次读出的场景，且不支持文件的修改。

3. HDFS 的shell（命令行客户端）操作

3.1HDFS命令行客户端使用

HDFS提供shell命令行客户端，使用命令语法为：hadoop fs <args>，它支持支持多种文件系统的访问，主要包括Local和HDFS两种，配置文件中的fs.defaultFS的值决定了默认访问的文件系统。其中命令中的“fs”表示FileSystem Shell。

“<args>”是“fs”的子命令，包括：

创建目录：mkdir

列表文件：ls

查看文件：cat

转移文件：put、get、mv、cp

删除文件：rm、rmr

管理命令：test、du、expunge

3.2常用命令参数介绍

-help

功能：输出这个命令参数手册

-ls

功能：显示目录信息

示例： hadoop fs -ls hdfs://hadoop-server01:9000/

备注：这些参数中，所有的hdfs路径都可以简写

-->hadoop fs -ls / 等同于上一条命令的效果

-mkdir

功能：在hdfs上创建目录

示例：hadoop fs -mkdir -p /aaa/bbb/cc/dd

--appendToFile

功能：追加一个文件到已经存在的文件末尾

示例：hadoop fs -appendToFile ./hello.txt hdfs://hadoop-server01:9000/hello.txt

可以简写为：Hadoop fs -appendToFile ./hello.txt /hello.txt

-cat

功能：显示文件内容

示例：hadoop fs -cat /hello.txt

-cp

功能：从hdfs的一个路径拷贝hdfs的另一个路径

示例： hadoop fs -cp /aaa/jdk.tar.gz /bbb/jdk.tar.gz.2

-mv

功能：在hdfs目录中移动文件

示例： hadoop fs -mv /aaa/jdk.tar.gz /

-get

功能：等同于copyToLocal，就是从hdfs下载文件到本地

示例：hadoop fs -get /aaa/jdk.tar.gz

-put

功能：等同于copyFromLocal

示例：hadoop fs -put /aaa/jdk.tar.gz /bbb/jdk.tar.gz.2

-rm

功能：删除文件或文件夹

示例：hadoop fs -rm -r /aaa/bbb/

4. HDFS 的工作机制

4.1概述

1、HDFS集群分为两大角色：NameNode、DataNode；

2、NameNode负责管理整个文件系统的元数据；

3、DataNode 负责管理用户的文件数据块；

4、文件会按照固定的大小（blocksize）切成若干块后分布式存储在若干台datanode上；

5、每一个文件块可以有多个副本，并存放在不同的datanode上；

6、Datanode会定期向Namenode汇报自身所保存的文件block信息，而namenode则会负责保持文件的副本数量；

7、HDFS的内部工作机制对客户端保持透明，客户端请求访问HDFS都是通过向namenode申请来进行；

4.2HDFS写数据流程

客户端要向HDFS写数据，首先要跟namenode通信以确认可以写文件并获得接收文件block的datanode，然后，客户端按顺序将文件逐个block传递给相应datanode，并由接收到block的datanode负责向其他datanode复制block的副本。

4.3HDFS读数据流程

客户端将要读取的文件路径发送给namenode，namenode获取文件的元信息（主要是block的存放位置信息）返回给客户端，客户端根据返回的信息找到相应datanode逐个获取文件的block并在客户端本地进行数据追加合并从而获得整个文件。

5.NAMENODE 工作机制

5.1NAMENODE 职责

NAMENODE职责：负责客户端请求的响应以及元数据的管理（查询，修改）。

5.2元数据管理

namenode对数据的管理采用了三种存储形式：

1、内存元数据(NameSystem)

2、磁盘元数据镜像文件

3、数据操作日志文件（可通过日志运算出元数据）

5.3元数据储存机制

A、内存中有一份完整的元数据(内存meta data)

B、磁盘有一个“准完整”的元数据镜像（fsimage）文件(在namenode的工作目录中)

C、用于衔接内存metadata和持久化元数据镜像fsimage之间的操作日志（edits文件）

5.4元数据手动查看

可以通过hdfs的一个工具来查看edits中的信息

bin/hdfs oev -i edits -o edits.xml

bin/hdfs oiv -i fsimage_0000000000000000087 -p XML -o fsimage.xml

5.5元数据的checkpoint

每隔一段时间，会由secondary namenode将namenode上积累的所有edits和一个最新的fsimage下载到本地，并加载到内存进行merge（这个过程称为checkpoint）。

6. DATANODE 的工作机制

6.1DATANODE 工作职责

1、存储管理用户的文件块数据

2、定期向namenode汇报自身所持有的block信息（通过心跳信息上报）

6.2观察验证DATANODE 功能

上传一个文件，观察文件的block具体的物理存放情况：

在每一台datanode机器上的这个目录中能找到文件的切块：

/home/hadoop/app/hadoop-2.6.5/tmp/dfs/data/current/BP-193442119-192.168.2.120-1432457733977/current/finalized

Java大数据开发之HDFS详解

Java+大数据开发——HDFS详解

3.1HDFS命令行客户端使用

3.2常用命令参数介绍

4.1概述

4.2HDFS写数据流程

4.3HDFS读数据流程

5.1NAMENODE 职责

5.2元数据管理

5.3元数据储存机制

5.4元数据手动查看

5.5元数据的checkpoint

6.1DATANODE 工作职责

6.2观察验证DATANODE 功能

相关文章

mongodb需要配置仲裁节点

一样的Java，不一样的HDInsight大数据开发体验

云硬盘架构升级和性能提升详解

Permanently added the RSA host key for IP address '192.30.253.113' to the list of known hosts.

【大数据开发】Hadoop的高级编程（一）

np.repeat函数

【大数据开发】Hadoop的高级编程（二）

Java编程新手入门要多久