Hadoop大数据实战（二）--ubtuntu14.0安装Hadoop最全教程

news/2024/5/20 4:03:05 标签: hadoop, hdfs, mapreduce

目录

1.安装jdk
2.下载Hadoop
3.设置Hadoop环境变量
4.Hadoop配置文件设置
5.创建并格式化 hdfs目录
6.关闭防火墙
7.启动Hadoop
8.打开Hadoop web界面

1.安装jdk

步骤1：

启动终端：使用快捷键 Ctrl+Alt+T启动。也可以单击快捷工具栏的“终端”程序图标来启动。

步骤2：查看java当前版本

java -version

在这里插入图片描述

为了获得最新软件包，首先进行更新

sudo apt-get update

下载和安装jdk

sudo apt-get install default-jdk

安装完成后重新查看版本

java -version

运行结果
在这里插入图片描述

2.下载Hadoop

有的同学用的安装教程版本比较旧，但是一些旧版本的Hadoop版本不知道从哪里下载，下面给大家一个网址，可以随意的选择自己想要的版本。

https://archive.apache.org/dist/hadoop/common/

在这里插入图片描述
1.下载
window系统用习惯了，不知道linux中怎么下载，简单，直接上命令,我安装的时候就用的是Hadoop2.6.4版本，所以这里以2.6.4为例：

wget https://archive.apache.org/dist/hadoop/common/hadoop-2.6.4/hadoop2.6.4.tar.gz

2.解压Hadoop

sudo tar -zxvf hadoop-2.6.4.tar.gz

在这里插入图片描述
3.将Hadoop移动到/usr/local

sudo mv hadoop-2.6.4 /usr/local/hadoop

在这里插入图片描述

3.设置Hadoop环境变量

运行Hadoop必须设置很多环境变量，可是如果每次登陆时都必须重新设置一次就会很麻烦，因此我们可以在~/.bashrc 文件中设置每次登陆时都会自动运行一次环境变量设置。

1.编辑 ~/.bashrc
终端输入命令：

sudo gedit ~/.bashrc

然后回车键，输入下面内容：
在这里插入图片描述
2.设置路径：
》1.设置jdk路径
》2.设置HADOOP_HOME为Hadoop安装路径
》3.设置Hadoop其他环境变量

在这里插入图片描述
3.让~/.bashrc设置生效

source ~/bashrc

运行结果见上图。

4.Hadoop配置文件设置

接下来就是Hadoop配置设置，包括 Hadoop-env.sh，core-site.xml，YARN-site.xml。
1.设置Hadoop-env.sh 配置文件

1.编辑Hadoop-env.sh

sudo gedit /usr/local/hadoop/hadoop-env.sh

在这里插入图片描述
原本文件中JAVA_HOME的设置为：

export JAVA_HOME=${JAVA_HOME}

修改后
在这里插入图片描述
注意：先保存，再关闭gedit。
2.设置core-site.xml
修改core-site.xml

sudo gedit /usr/local/hadoop/etc/hadoop/core-site.xml

在这里插入图片描述
编辑后：

先保存，再关闭gedit。

3.设置YARN-site.xml
YARN-site.xml文件中含有MapReduce2相关配置设置，可在终端程序中输入以下命令：

sudo gedit /usr/local/hadoop/etc/hadoop/yarn-site.xml

在这里插入图片描述
编辑文件

先保存，再关闭gedit。
4.设置mapred-site.xml
mapred-site,xml 用于监控map和reduce程序的JobTracker任务分配情况以及T爱上Tracker任务运行情况，Hadoop提供设置模板，可自行复制修改，在终端程序中输入以下命令
复制模板文件，由mapred-site.xml.template至mapred-site.xml

sudo cp /usr/local/hadoop/etc/hadoop/mapred-site.xml.template /usr/local/hadoop/mapred-site.xml

在这里插入图片描述
模板复制成功，接下来继续编辑mapred-site.xml

sudo gedit /usr/local/hadoop/etc/hadoop/mapred-site.xml

在这里插入图片描述
编辑

先保存，在关闭geidit。

5.设置hdfs-site.xml
hdfs-site.xml用于设置HDFS分布式文件系统，在终端程序中输入以下命令：

sudo gedit /usr/local/hadoop/etc/hadoop/hdfs-site.xml

在这里插入图片描述
编辑

先保存，再关闭gedit。
（不写蓝色部分会出现错误，有些书上面没有，大家注意！如果对错误感兴趣，可以看博客：https://blog.csdn.net/qq_44176343/article/details/109564129）

hdfs_135">5.创建并格式化 hdfs目录

1.创建namenode数据存储目录：

sudo mkdir -p /usr/local/hadoop/hadoop_data/hdfs/namenode

2.创建datanode数据存储目录：

sudo mkdir -p /usr/local/hadoop/hadoop_data/hdfs/datanode

3.将Hadoop目录所有者改为hduser

sudo chown hduser:hduser -R /usr/local/hadoop

在这里插入图片描述

6.关闭防火墙

1.切换到root用户

su

2.关闭防火墙

sudo ufw disable

在这里插入图片描述
2.格式化HDFS

hadoop namenode -format

在这里插入图片描述

7.启动Hadoop

启动Hadoop可以分为分为两种，一种是分别启动HDFS,YARN.一种是同时启动HDFS,YARN.
1.分别启动

start-hdfs.sh

在这里插入图片描述

start-yarn.sh

在这里插入图片描述

2.同时启动

start-all.sh

同上。

3.查看NameNode和DataNode是否启动

jps

8.打开Hadoop web界面

1.打开Hadoop resourcemanager web界面用于查看Hadoop状态：node节点，应用程序和运行状态。
步骤1：打开浏览器Firefox，在网址中输入：

http：//localhost:8088/

2.打开HDFS web 界面可以检查HDFS与DataNode的运行情况
步骤1：打开浏览器Firefox，在网址中输入：

http：//localhost:50070/

在这里插入图片描述
注意：如果界面不显示，可以先用ifconfig查询一下网络

ifconfig

在这里插入图片描述
发现ip地址为：10.0.2.15.则在浏览器输入

http://10.0.2.15:8088/

在这里插入图片描述
欢迎大家评论，互相讨论问题。

http://www.niftyadmin.cn/n/1870641.html

相关文章

Web爬虫|入门教程之爬虫简介

Web爬虫|入门教程之爬虫简介

网络爬虫开发实战源码：https://github.com/MakerChen66/Python3Spider 原创不易，本文禁止抄袭、转载，多年爬虫实战开发经验总结，侵权必究！ 目录一、爬虫简介二、原文链接三、作者Info一、爬虫简介什么是网络爬虫&…

阅读更多...

机器学习基础--新手必知

机器学习基础--新手必知

1,机器学习概述机器学习（Maching learning ，ML）是一门多领域交叉学科，设计概率论，统计学等多门学科，专门研究计算机怎么模拟实现人类的学习行为，以获取新的知识和技能，重新组织已有的…

阅读更多...

Web爬虫|入门教程之请求库requests

Web爬虫|入门教程之请求库requests

网络爬虫开发实战源码：https://github.com/MakerChen66/Python3Spider 原创不易，本文禁止抄袭、转载，多年爬虫实战开发经验总结，侵权必究！ 目录一、requests库二、原文链接三、作者Info一、requests库爬虫利器下载官…

阅读更多...

python常遇错误-IndexError: list index out of range

python常遇错误-IndexError: list index out of range

Python中包含错误和异常两种情况①，错误主要是常见的语法错误SyntaxError，如下图所示，并且在错误提示中会有倒三角箭头的修改指示位置；python中的另外一种错误提醒叫做异常，指的是在语法和表达式上并没有错误&#xff…

阅读更多...

LeetCode基础算法-查找算法原理（附源码）

LeetCode基础算法-查找算法原理（附源码）

查找算法查找算法也叫搜索算法，查找算法就是从一个有序的数列中找出一个特定的数，常用于判断这个数是否在数列中，或者某个数在数列中的位置，查找是最基本的算法，也是算法的重要部分。算法目录1.顺序查找2.二分法查找3…

阅读更多...

Web爬虫|入门教程之解析库Beautiful Soup

Web爬虫|入门教程之解析库Beautiful Soup

网络爬虫开发实战源码：https://github.com/MakerChen66/Python3Spider 原创不易，本文禁止抄袭、转载，多年爬虫实战开发经验总结，侵权必究！ 目录一、Beautiful Soup1.1 四大对象种类1.1.1 四大对象种类——Tag1.1.2 四大…

阅读更多...

spring data jpa 查询参数动态可为空的问题解决

spring data jpa 查询参数动态可为空的问题解决

spring data jpa 查询参数动态可为空的问题解决https://bbs.csdn.net/topics/390968657/

阅读更多...

Web爬虫|入门教程之正则表达式

Web爬虫|入门教程之正则表达式

网络爬虫开发实战源码：https://github.com/MakerChen66/Python3Spider 原创不易，本文禁止抄袭、转载，多年爬虫实战开发经验总结，侵权必究！ 目录一、正则表达式引入二、正则表达式使用三、匹配方法3.1 match()3.2 searc…

阅读更多...

最新文章