hadoop1.0 mapreduce + HDFS
hadoop2.0 mapreduce + HDFS + YARN
加入YARN使得hadoop更加包容,其他的组件也可以在hadoop生态系统中运行
hadoop3.0 HDFS(分布式存储) + mapreduce(分布式计算框架) + YARN(集群资源调度)
3.0 1最低支持JAVA8 2加入了纠删码,可大幅压缩存储空间,提高存储效率
hadoop环境安装
下载包选tar.gz 关闭防火墙 设置主机名 hostname=bigdata01 或 vim /etc/hostname
名称与IP建立联系 vim /etc/host : 192.168.70.128 bigdata01
JVM ENV: 下载解压安装包tar.gz tar -zxvf jdk_8u...
配置环境变量:vim /etc/profile: export JAVA_HOME = /data/soft/jdk1.8
export PATH =.: $JAVA_HOME/bin:$PATH
Source /etc/profile
Java -version
Install hadoop:
Tar -zxvf hadoop-3.2.2.tar.gz
配置环境变量:vim /etc/profile : export HADOOP_HOME=/data/soft/hadoop-3.2.2
Export $PATH=.:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
Bin/ 操作hdfs和yarn组件的脚本
Sbin/ 启动和停止组件。。。
/etc/hadoop/:
Hadoop-env.sh 环境变量java hadoop
编辑配置文件 hadoop-3.2.2/etc/hadoop/hadoop-env.sh:
Export JAVA_HOME=/data/soft/jdk1.8
Export HADOOP_LOG_DIR=/data/hadoop_report/logs/hadoop
core-site.xml 配置主机名和端口,临时目录
Hdfs-site.sh 设置集群的节点个数(包括主节点)
Mapred-site.xml 配置使用的资源调度框架
Yarn-site.xml 配置yarn上可支持使用的服务和白名单
Workers 将从节点的hostname写进去
使用前需格式化系统:
bin/hdfs namenode -format
启动集群: sbin/start-dfs.sh
启动前需先配置一些信息在脚本中:
vim Sbin/start-dfs.sh :
Vim sbin/stop-dfs.sh:
Vim sbin/start-yarn.sh:
Vim sbin/stop-yarn.sh:
Jps
Namenode
Datanode
Resourcemanager
Secondarynamenode
Nodemanager
主节点:
namenode
resource manager
secondary namenode
jvm
linux os
server
从节点:
datanode
node manager
jvm
linux os
server
配置从节点时,
1远程免密登陆:
Ssh-keygen -t rsa
Cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
Ssh bigdata01
防火墙:systemctl stop/disable iptables
Ip:
Vim /etc/hosts
Vim /etc/hostname
Vim /etc/sysconfig/network-scripts/ifcfg-eth0
使用克隆建立从节点后需要修改 /etc/udev/rules.d/70-persisent-net.rules
复制其中的MAC地址 到 /etc/sysconfig/network-scripts/ifcfg-eth0
Service network restart
Scp -rq hadoop3.2.2 bigdata02:/data/soft
-r 递归到每个子文件夹 -q 安静模式,不显示中间信息