总结:HDFS+YARN+HIVE

第一章 Hello大数据&分布式
- - Part1 数据导论
  - - - 一. 数据
      - 二. 数据的价值
  - Part2 大数据诞生
  - Part3 大数据概述
  - - - 一. 什么是大数据
      - 二.大数据特征
      - 三.大数据的核心工作
  - Part4 大数据软件生态
  - - - 一. 大数据软件生态
  - Part5 Apache Hadoop 概述
  - - - 一. Hadoop概念
第二章分布式存储Hadoop HDFS
- - Part1 为什么需要分布式存储
  - Part2 分布式的基础架构分析
  - - - 一. 分布式的基础架构 - 2类架构模式
  - Part3 HDFS基础架构
  - - - 一. HDFS
      - 二. HDFS的基础架构
  - Part4 HDFS集群环境部署
  - - - 一. 部署步骤
      - 二.HDFS启停
      - 三.文件系统操作命令-- 自己补充完整
      - 四.权限修改
  - Part5 HDFS存储原理
  - - - 一. HDFS存储原理\
      - 二. fsck命令
      - 三.NameNode管理元数据
      - 四.HDFS数据读写流程
第三章 MapReduce和YARN入门

第一章 Hello大数据&分布式

Part1 数据导论

一. 数据

数据：一种可以被鉴别的对客观事件进行记录的符号。简单来说就是：对人类的行为及产生的事件的一种记录。

二. 数据的价值

对数据的内容进行深入分析，可以更好的帮助了解事和物在现实世界的运行规律
比如，购物的订单记录（数据）可以帮助平台更好的了解消费者，从而促进交易。

Part2 大数据诞生

Part3 大数据概述

一. 什么是大数据

狭义上：大数据是一类技术栈，是一种用来处理海量数据的软件技术体系。

广义上：大数据是数字化时代、信息化时代的基础（技术）支撑，以数据为生活赋能。

二.大数据特征

从海量的高增长、多类别、低信息密度的数据中挖掘出高质量的结果

三.大数据的核心工作

数据计算

数据存储

数据传输

Part4 大数据软件生态

一. 大数据软件生态

数据存储: Apache Hadoop - HDFS, Apache HBase, Apache KUDU, 云存储

数据计算: Apache Hadoop - MapReduce, Apache Hive,Apache Spark, Apache Flink

数据传输: Apache Kafka, Apache Pulsar, Apache Flume,Apache Sqoop

Part5 Apache Hadoop 概述

一. Hadoop概念

分布式数据存储 - HDFS组件
分布式数据计算 - MapReduce组件
分布式资源调度 - YARN组件

第二章分布式存储Hadoop HDFS

Part1 为什么需要分布式存储

数据量太大，单机存储能力有上限，需要靠数量来解决问题
数量的提升带来的是网络传输、磁盘读写、CPU、内存等各方面的综合提升。分布式组合在一起可以达到1+1>2的效果

Part2 分布式的基础架构分析

一. 分布式的基础架构 - 2类架构模式

去中心化模式:没有明确的中心。众多服务器之间基于特定规则进行同步协调

中心化模式: 有一个中心节点（服务器）来统筹其它服务器的工作，统一指挥，统一调派，避免混乱 – 主从模式(Master And Slaves)

Part3 HDFS基础架构

一. HDFS

HDFS是Hadoop三大组件(HDFS、MapReduce、YARN)之一

全称是：Hadoop Distributed File System（Hadoop分布式文件系统）

是Hadoop技术栈内提供的分布式数据存储解决方案

可以在多台服务器上构建存储集群，存储海量的数据

HDFS是一个典型的主从模式架构

二. HDFS的基础架构

HDFS集群:

主角色 : NameNode – 唯一的
HDFS系统的主角色，是一个独立的进程
负责管理HDFS整个文件系统
负责管理DataNode

从角色 : DataNode - 若干个
HDFS系统的从角色，是一个独立进程
主要负责数据的存储，即存入数据和取出数据

主角色辅助角色: SecondaryNameNode
NameNode的辅助，是一个独立进程
主要帮助NameNode完成元数据整理工作（打杂）

Part4 HDFS集群环境部署

一. 部署步骤

1. 下载安装包 - hadoop-3.3.6.tar.gz

2. 集群规划

节点	服务
node1	NameNode, DataNode,SecondaryNameNode
node2	DataNode
node3	DataNode

3. 上传和解压 – root用户

上传Hadoop安装包到node1节点中, 位置 root用户家目录中

解压缩安装包到/export/server/中

tar -zxvf hadoop-3.3.6.tar.gz -C /export/server

构建软连接

cd /export/server

ln -s /export/server/hadoop-3.3.4 hadoop

进入hadoop安装包中

cd hadoop

4. Hadoop安装包目录结构

各个文件夹含义如下

bin，存放Hadoop的各类程序（命令）

etc，存放Hadoop的配置文件

include，C语言的一些头文件

lib，存放Linux系统的动态链接库（.so文件）

libexec，存放配置Hadoop系统的脚本文件（.sh和.cmd）

licenses-binary，存放许可证文件

sbin，管理员程序（super bin）

share，存放二进制源码（Java jar包）-- MapReduce接口(wordcount, pi)

5. 修改配置文件，应用自定义设置

workers：配置从节点（DataNode）有哪些 – node1,node2,node3
hadoop-env.sh：配置Hadoop的相关环境变量
core-site.xml：Hadoop核心配置文件
hdfs-site.xml：HDFS核心配置文件

6. 准备数据

在node1节点：

mkdir -p /data/nn

mkdir -p /data/dn

在node2和node3节点：mkdir -p /data/dn

7.分发Hadoop文件夹

分发

在node1执行如下命令

cd /export/servers

cp -r hadoop-3.3.4 node2:pwd

cp -r hadoop-3.3.4 node3:pwd

在node2执行

ln -s /export/server/hadoop-3.3.4 /export/server/hadoop

在node3执行

ln -s /export/server/hadoop-3.3.4 /export/server/hadoop

8. 配置环境变量

9.授权为hadoop用户

10.格式化整个文件系统

二.HDFS启停

一键启停

$HADOOP_HOME/sbin/start-dfs.sh，一键启动HDFS集群
$HADOOP_HOME/sbin/stop-dfs.sh，一键关闭HDFS集群

单进程启停

hadoop-daemon.sh (start|status|stop) (namenode|secondarynamenode|datanode)

hdfs --daemon (start|status|stop) (namenode|secondarynamenode|datanode)

三.文件系统操作命令-- 自己补充完整

1. 创建文件夹

hadoop fs -mkdir [-p] <path> ...

hdfs dfs -mkdir [-p] <path> ...

path 为待创建的目录
-p选项的行为与Linux mkdir -p一致，它会沿着路径创建父目录。

2.查看指定目录

hadoop fs -ls [-h] [-R] [<path> ...]

hdfs dfs -ls [-h] [-R] [<path> ...]

path 指定目录路径
-h 人性化显示文件size
-R 递归查看指定目录及其子目录

3.上传

4.查看文件内容

5.下载

6.拷贝

7.追加

8.移动

9.删除

四.权限修改

1. 修改所属用户和组

2. 修改权限

Part5 HDFS存储原理

一. HDFS存储原理\

二. fsck命令

我们还可以在上传文件的时候，临时决定被上传文件以多少个副本存储

hadoop fs -D dfs.replication=2 -put test.txt /tmp/

对于已经存在HDFS的文件，修改dfs.replication属性不会生效，如果要修改已存在文件可以通过命令

hadoop fs -setrep [-R] 2 path

fsck命令检查文件的副本数

hdfs fsck path [-files [-blocks [-locations]]]

总结:HDFS+YARN+HIVE

总结:HDFS+YARN+HIVE

第一章 Hello大数据&分布式

Part1 数据导论

一. 数据

二. 数据的价值

Part2 大数据诞生

Part3 大数据概述

一. 什么是大数据

二.大数据特征

三.大数据的核心工作

Part4 大数据软件生态

一. 大数据软件生态

Part5 Apache Hadoop 概述

一. Hadoop概念

第二章 分布式存储Hadoop HDFS

Part1 为什么需要分布式存储

Part2 分布式的基础架构分析

一. 分布式的基础架构 - 2类架构模式

Part3 HDFS基础架构

一. HDFS

二. HDFS的基础架构

Part4 HDFS集群环境部署

一. 部署步骤

二.HDFS启停

三.文件系统操作命令-- 自己补充完整

四.权限修改

Part5 HDFS存储原理

一. HDFS存储原理\

二. fsck命令

三.NameNode管理元数据

四.HDFS数据读写流程

第三章 MapReduce和YARN入门

相关文章

第二章分布式存储Hadoop HDFS