大数据技术实验一-在ubuntu18.04中安装伪分布式Hadoop并使用自带wordcount案例

news/2024/5/20 2:22:05 标签: hadoop, mapreduce, hdfs, big data, 大数据

必要时转载请标明出处
本文是在ubuntu上安装Hadoop的操作,关于如何在centOS上安装Hadoop可参考 https://blog.csdn.net/hgxiaojiujiu/article/details/120382331


实验一 熟悉常用的Linux操作和Hadoop操作

一、 实验目的

(1)掌握Linu虚拟机的安装方法。Hadoop在Linux操作系统上运行可以发挥最佳性能。鉴于目前很多读者正在使用Windows操作系统,因此,为了完成本书的后续实验,这里有必要通过本实验让读者掌握在Windows操作系统上搭建Linux虚拟机的方法。
(2)掌握一些常用的Linux命令。本书中的所有实验都在Linux操作系统中完成,因此,需要读者熟悉一些常用的Linux命令。
(3)掌握Hadoop的伪分布式安装方法。很多读者并不具备集群环境,而Hadoop操作需要在一台机器上模拟一个小的集群,因此,需要通过本实验让读者掌握在单机上进行Hadoop的伪分布式安装方法。
(4)掌握Hadoop的常用操作。熟悉使用一些基本的Shell命令对Hadoop进行操作,包括创建目录,复制文件,查看文件等。

二、 实验平台

 操作系统:Windows操作系统或者Ubuntu操作系统(推荐)
 虚拟机软件:推荐使用的开源虚拟机软件为VirtualBox。VirtualBox是一款功能强大的免费虚拟机软件,不仅具有鲜明的特色、优异的性能,而且简单易用,可虚拟的操作系统包括Windows、macOS、openBSD、Solaris、IBM OS2,甚至Android 4.0操作系统等。读者可以在Windows操作系统上安装VirtualBox软件,然后再VirtualBox上安装并运行Linux操作系统,本次实验默认的Linux的发行版为Ubuntu18.04(或者Ubuntu16.04)。
 Hadoop版本:3.1.3。

三、 实验内容和要求

四、 实验报告

五、 实验操作

1.在vm虚拟机上安装ubuntu18.04桌面版操作系统

采用华为镜像下载ubuntu18.04系统速度较快。https://repo.huaweicloud.com/apache/hadoop/core/hadoop-3.1.3/
在这里插入图片描述

hadoopjdkubuntu_19">2.将hadoop和jdk上传到ubuntu上,并解压文件。

在这里插入图片描述

3.配置基础环境ip、hostname、firewalld、ssh免密码登录、JDK

在这里插入图片描述
在这里插入图片描述
首先使用命令 ssh-keygen -t rsa
在这里插入图片描述
使用命令 ll ~/.ssh/ 找到生成的公钥和密钥文件

将公钥文件拷贝到需要免密码登录的机器上面。集群分布也一样。

完成后,使用 ssh whj-bigdata01直接访问 whj-bigdata01这台机器,不再需要输入密码验证。
在这里插入图片描述

4.启动和操作Hadoop

4.1 修改Hadoop的配置文件

主要修改下面这几个文件: hadoop-env.sh、core-site.xml、hdfs-site.xml 、mapred-site.xml、yarn-site.xml、workers。
注:在ubuntu系统中提前创建好需要的文件夹和文件,centos系统则不需要。

4.2 格式化HDFS
在Hadoop目录下执行命令 bin/hdfs namenode -format
在这里插入图片描述
HDFS格式化成功。
在这里插入图片描述
Hadoop界面,端口号8088
在这里插入图片描述
HDFS weui界面,网页端口号为9870
在这里插入图片描述

5.HDFS的相关操作

(1)为Hadoop用户在HDFS 中创建用户目录“/user/hadoop
使用命令 hdfs dfs -mkdir -p /user/Hadoop
在这里插入图片描述
(2)接着在 HDFS的目录“/user/hadoop”下,创建 test文件夹,并查看文件列表。
使用上一步类似的命令即可
(3)将Linux操作系统本地的“~/.bashrc”文件上传到 HDFS的test文件夹中,并查看test。
使用命令 hdfs dfs -put ~/.bashrc /user/hadoop/test 上传文件
使用命令 hdfs dfs -ls /user/hadoop/test 查看列表
在这里插入图片描述(4)将HDFS test文件夹复制到Linux操作系统本地文件系统的“usr/local/hadoop”目录下。
使用命令hdfs dfs -get /user/hadoop/test /usr/local/hadoop/
在这里插入图片描述

6.Hadoop自带的WordCount案例

在这里插入图片描述
在这里插入图片描述在此目录下执行命令hadoop jar hadoop-mapreduce-examples-3.1.3.jar wordcount /wordcount /wordcount_out,完成后查看目录wordcount_out中的文件。
在这里插入图片描述


http://www.niftyadmin.cn/n/1699367.html

相关文章

Maven 集成Tomcat7插件

2019独角兽企业重金招聘Python工程师标准>>> Maven已经是Java的项目管理标配,如何在JavaEE开发使用Maven调用Web应用,是很多同学关心的问题。本文将介绍,Maven如何介绍Tomcat插件。 Maven Tomcat插件现在主要有两个版本&#xff…

POJ 3280 Cheapest Palindrome(区间dp)

dp[i][j]表示处理完i到j的花费&#xff0c;如果s[i] s[j] 则不需要处理&#xff0c;否则处理s[i]或s[j]&#xff0c; 对一个字符ch&#xff0c;加上ch或删掉ch对区间转移来说效果是一样的&#xff0c;两者取min。 #include<cstdio> #include<iostream> #include&l…

matlab进行地图仪的绘制

1 % 绘制地球仪&#xff0c;并标出我们的位置2 cla reset;3 load topo;4 5 [x,y,z] sphere(45);%45是画出来的球面的经纬分面数6 s surface(x,y,z,FaceColor,texturemap,CData,topo);7 colormap(topomap1);8 9 % Brighten the colormap for better annotation visibility: 10…

2015第42周日

又一周过去了&#xff0c;晚上睡前还是通过随笔来总结下自己。先说今天&#xff0c;参加浙一走东河活动&#xff0c;和从上海过来的同学一起在楼外楼吃饭&#xff0c;然后走西湖&#xff0c;下午去庆春书店&#xff0c;然后再回来&#xff0c;晚上网上注册了两个信用卡&#xf…

Oracle 10G如何从recovery catalog中Unregister目标数据库

从10g开始&#xff0c;RMAN简化了unregister目标数据库的步骤 方法1&#xff1a; $rman target system/oracletest catalog rman/rmancatadb rman> unregister database; rman> unregister database noprompt; 如果rman已经连接到数据库&#xff0c;或者已经设置了dbid&a…

百度地图Api进阶教程-点击生成和拖动标注4.html

<!DOCTYPE html> <html> <head> <meta http-equiv"Content-Type" content"text/html; charsetutf-8" /> <title>百度地图</title><script type"text/javascript">var iscreatrfalse;function initial…

二维数组转为一维数组

1.很多时候会遇到二维数组&#xff0c;转为一维数组的时候会很苦恼&#xff0c;尤其是刚刚接触PHP的phper。 如下&#xff1a;将$arr转化为一维数组 $arr Array ( Array ( uuid > aaaaa ), Array ( uuid > bbbbb ), Arra…

《The C Programming Language》读书笔记总结 lt;一gt;.基础篇

写了这么多年的C代码&#xff0c;回过头来再看《The C Programming Language》这本书&#xff0c;作者Brian W. Kernighan和C语言之父Dennis M. Ritchie。感觉里面的知识和书的架构给人非常”合理”的感觉。怎么个合理法呢&#xff1f; 首先书中的代码&#xff0c;如else-if中使…