大数据基础day1

HDFS（Hadoop分布式文件系统）
- 字典与文件系统
- - 文件系统定义
  - 文件名
  - 元数据（Metadata）
  - 数据块（Block）
- HDFS架构包含三个部分
- HDFS写数据流程（确保一致性）
- HDFS读数据（确保效率性）
- HDFS（高可用）HA
HBase
- 三种读取数据的方式
- HBase的表的三个特征
- HBase架构
- - HBase读取数据的流程
  - HBase写入数据的流程
mapreduce

HDFS（Hadoop分布式文件系统）

一种旨在在商品硬件上运行的分布式文件系统

HDFS具有高度的容错能力，旨在部署在低成本硬件上。
HDFS提供对应用程序数据的高吞吐量访问，并且适用于具有大数据集的应用程序
HDFS放宽了一些POSIX要求，以实现对文件系统数据的流式访问。
HDFS最初是作为Apache Nutch Web搜索引擎项目的基础结构而构建的。
HDFS是Apache Hadoop Core项目的一部分。

字典与文件系统

文件系统定义

文件系统是一种存储和组织计算机数据的方法，它使得对其访问和查找变得容易。

文件名

在文件系统中，文件名是用于定位存储位置。

元数据（Metadata）

保存文件属性的数据，如文件名，文件长度，文件所属用户组，文件存储位置等。

数据块（Block）

存储文件的最小单元。对存储介质划分了固定的区域，使用时按这些区域分配使用。

HDFS架构包含三个部分

Client：支持业务访问HDFS，从NameNode ,DataNode获取数据返回给业务。多个实例，和业务一起运行
NameNode：用于存储、生成文件系统的元数据。运行一个实例
DataNode：DataNode用于存储实际的数据，将自己管理的数据块上报给NameNode ，运行多个实例

HDFS写数据流程（确保一致性）

在这里插入图片描述
1.提出申请 -2.创建元数据 -3.数据拆分 -4.数据写入(第一个节点写入其他节点复制)-5.ack检查包 -6.关闭接口 -7.元数据固化

HDFS读数据（确保效率性）

在这里插入图片描述

1.提出申请 -2.查找元数据-3读取 (就近原则)- 4.关掉

HDFS（高可用）HA

在这里插入图片描述
利用ZooKeeper实现主备NameNode（解决单点故障问题）
Zookeeper主要用于存储HA下状态文件
双NameNode 保证同一时间总有一个节点正常工作
ZKFC(ZooKeeper Failover Controller)用于监控NameNode节点的主备状态通过心跳机制向上层报告自己的状态每3s 发送一条消息（共12条消息）
元数据持久化：通过快照和日志文件
联邦机制：并行设立多个NameNode节点
副本机制：3副本保证数据安全
同分布：减少无效的io操作