hadoop集群基础配置

hadoop1.0 mapreduce + HDFS
hadoop2.0 mapreduce + HDFS + YARN
加入YARN使得hadoop更加包容，其他的组件也可以在hadoop生态系统中运行
hadoop3.0 HDFS（分布式存储） + mapreduce（分布式计算框架） + YARN(集群资源调度)
3.0 1最低支持JAVA8 2加入了纠删码，可大幅压缩存储空间，提高存储效率

hadoop环境安装
下载包选tar.gz 关闭防火墙设置主机名 hostname=bigdata01 或 vim /etc/hostname
名称与IP建立联系 vim /etc/host : 192.168.70.128 bigdata01
JVM ENV: 下载解压安装包tar.gz tar -zxvf jdk_8u...
配置环境变量：vim /etc/profile: export JAVA_HOME = /data/soft/jdk1.8
export PATH =.: $JAVA_HOME/bin:$PATH
Source /etc/profile
Java -version

Install hadoop：
Tar -zxvf hadoop-3.2.2.tar.gz
配置环境变量：vim /etc/profile ： export HADOOP_HOME=/data/soft/hadoop-3.2.2
Export $PATH=.:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

Bin/ 操作hdfs和yarn组件的脚本
Sbin/ 启动和停止组件。。。

/etc/hadoop/:
Hadoop-env.sh 环境变量java hadoop
编辑配置文件 hadoop-3.2.2/etc/hadoop/hadoop-env.sh:
Export JAVA_HOME=/data/soft/jdk1.8
Export HADOOP_LOG_DIR=/data/hadoop_report/logs/hadoop

core-site.xml 配置主机名和端口，临时目录
Hdfs-site.sh 设置集群的节点个数（包括主节点）
Mapred-site.xml 配置使用的资源调度框架
Yarn-site.xml 配置yarn上可支持使用的服务和白名单
Workers 将从节点的hostname写进去

使用前需格式化系统：
bin/hdfs namenode -format

启动集群： sbin/start-dfs.sh
启动前需先配置一些信息在脚本中：
vim Sbin/start-dfs.sh :
Vim sbin/stop-dfs.sh:
Vim sbin/start-yarn.sh:
Vim sbin/stop-yarn.sh:

Jps
Namenode
Datanode
Resourcemanager
Secondarynamenode
Nodemanager

主节点：
namenode
resource manager
secondary namenode
jvm
linux os
server

从节点：
datanode
node manager
jvm
linux os
server

配置从节点时，
1远程免密登陆：
Ssh-keygen -t rsa
Cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

Ssh bigdata01

防火墙：systemctl stop/disable iptables

Ip:
Vim /etc/hosts
Vim /etc/hostname

Vim /etc/sysconfig/network-scripts/ifcfg-eth0

使用克隆建立从节点后需要修改 /etc/udev/rules.d/70-persisent-net.rules
复制其中的MAC地址到 /etc/sysconfig/network-scripts/ifcfg-eth0

Service network restart

Scp -rq hadoop3.2.2 bigdata02:/data/soft
-r 递归到每个子文件夹 -q 安静模式，不显示中间信息