大数据平台/大数据技术与原理-实验报告--实战HDFS

news/2024/5/20 4:09:24 标签: npm, 前端, node.js, 大数据, hdfs, hadoop, python

实验名称

实战HDFS

实验性质

(必修、选修)

必修

实验类型(验证、设计、创新、综合)

综合

实验课时

2

实验日期

2023.10.23-2023.10.27

实验仪器设备以及实验软硬件要求

专业实验室(配有centos7.5系统的linux虚拟机三台

实验目的

1. 理解HDFS体系架构。

2. 理解HDFS文件存储原理和数据读写过程。

3. 熟练掌握HDFS Web UI界面的使用。

4. 熟练掌握HDFS Shell常用命令的使用。

5. 熟练掌握HDFS项目开发环境的搭建。

6. 掌握使用HDFS Java API编写HDFS文件操作程序。

实验内容(实验原理、运用的理论知识、算法、程序、步骤和方法)

1.启动全分布模式Hadoop集群,守护进程包括NameNode、DataNode、SecondaryNameNode、ResourceManager、NodeManager和JobHistoryServer。

此时使用jps查看各个节点端口的启用情况:

主节点:

从节点:

2.查看HDFS Web界面。

3.练习HDFS Shell文件系统命令和系统管理命令。

查看文件目录:

hdfs dfs -ls <路径>

上传文件:

hdfs dfs -put <localsrc> <dst>

这个命令可以将本地文件上传到HDFS1。

下载文件:

hdfs dfs -get <src> <localdst>

这个命令可以将HDFS的文件下载到本地1。

创建目录:

hdfs dfs -mkdir <路径>

这个命令可以在HDFS中创建新的目录1。

删除文件:

hdfs dfs -rm <路径>

这个命令可以删除HDFS中的文件1。

查看安全模式状态:

hdfs dfsadmin -safemode get

这个命令可以查看HDFS的安全模式状态

以上就是一些基本的HDFS Shell命令,你可以通过这些命令来操作HDFS文件系统。

4.在Hadoop集群主节点上搭建HDFS开发环境Eclipse。

5.使用HDFS Java API编写HDFS文件操作程序,实现上传本地文件到HDFS的功能,采用本地执行和集群执行的两种执行方式测试,观察结果。

6.使用HDFS Java API编写HDFS文件操作程序,实现查看上传文件在HDFS集群中位置的功能,采用本地执行和集群执行的两种执行方式测试,观察结果。

   单击Eclipse工具栏中的Run按钮,直接运行UploadFile,执行结果如图2-32所示。从图2-32中可以看出,在/root/eclipse-workspace/HDFSExample目录下增加一个“file1.txt”文件,本地文件系统发生的变化如图2-33所示,file1.txt没有上传到HDFS上,使用命令“hadoop fs -ls /”查看不到file1.txt。

   此时进行传送到hadoop的集群上进行处理:

此时登录webUI界面:

此时可以看到的是file1.txt文件已经上传上去了

7. 关闭全分布模式Hadoop集群。

    关闭全分布模式Hadoop集群的命令与启动命令次序相反,只需在主节点master上依次执行以下3条命令即可关闭Hadoop。

   mr-jobhistory-daemon.sh stop historyserver

   stop-yarn.sh

   stop-dfs.sh

   执行mr-jobhistory-daemon.sh stop historyserver时,其*historyserver.pid文件消失;执行stop-yarn.sh时,*resourcemanager.pid和*nodemanager.pid文件依次消失;stop-dfs.sh,*namenode.pid、*datanode.pid、*secondarynamenode.pid文件依次消失。

实验结果与分析

       通过本次实验,我们深入理解了HDFS的体系架构、文件存储原理以及数据读写过程。通过练习HDFS Shell命令,掌握了基本的文件系统和系统管理操作。同时,在搭建HDFS开发环境和使用Java API编写HDFS文件操作程序的过程中,提高了对HDFS项目开发的实际应用能力。实验结果表明,在正确配置和操作的情况下,Hadoop集群可以有效地管理大规模数据,并提供可靠的分布式存储和处理服务。


http://www.niftyadmin.cn/n/5219027.html

相关文章

FLASK博客系列6——数据库之谜

我们上一篇已经实现了简易博客界面&#xff0c;你还记得我们的博客数据是自己手动写的吗&#xff1f;但实际应用中&#xff0c;我们是不可能这样做的。大部分程序都需要保存数据&#xff0c;所以不可避免要使用数据库。我们这里为了简单方便快捷&#xff0c;使用了超级经典的SQ…

渗透实战| 信息泄露分析

0x01系统初探 通过fofa对大学进行搜索 fofa:host"edu.cn" &amp;&amp; status_code"200"在随意的翻阅查看时&#xff0c;发现访问xxx.edu.cn登录页面会优先访问登录后的页面&#xff0c;再跳转至登录页面。盲猜应该是前端校验&#xff0c;可以通过…

伦敦金现图形态分析(深度好文)

对价格行为交易者来说&#xff0c;伦敦金价走势图表中的一些特殊形态&#xff0c;能够带来比较靠谱的交易信号。然而交易并不只和形态有关&#xff0c;也和我们能够从图表形态中阅读到什么&#xff0c;以及如何理解其他交易者对价格波动的推动有关。 在对伦敦金走势图的技术形态…

vue项目npm install报错Failed at the fibersa4.0.3 install script

报错如下 解决&#xff1a;降低node版本 降到12.16.0 参考链接

测试架构师必备技能-Nginx安装部署实战

Nginx(“engine x”)是一款是由俄罗斯的程序设计师Igor Sysoev所开发高性能的免费开源Web和 反向代理服务器&#xff0c;也是一个 IMAP/POP3/SMTP 代理服务器。在高并发访问的情况下&#xff0c;Nginx是Apache服务器不错的替代品。官网数据显示每秒TPS高达50W左右。本文为读者朋…

API协作管理工具:Apipost

在当今快速发展的数字化时代&#xff0c;API已成为企业与开发者实现数据互通、应用集成的重要桥梁。然而&#xff0c;随着API数量的不断增加&#xff0c;API开发、调试、测试、文档等工作也变得越来越复杂。为了解决这一痛点&#xff0c;一款名为Apipost的API协同研发工具应运而…

oracle关联更新

业务场景中需要对特定数据进行关联更新&#xff0c;记录一下关联更新语法&#xff1a; MERGE INTO fine_record_execute targ USING (SELECT "id","tname"FROM fine_record_executeWHERE "username" LIKE %目标人物%AND "time">20…

前端面试题(面试碰到的一些)(一)

1、浏览器的存储方式都有哪些? cookie: 优点——兼容性好&#xff0c;请求头自带cookie方便 。缺点——大小只有4k, 请求头加入 cookie 浪费流量 localStorage: 优点—— 操作方便&#xff0c;永久性存储&#xff0c;大小有 5M sessionStorage: 会话级别…