搭建Hadoop集群 并实现hdfs上的crud操作

news/2024/5/20 4:52:00 标签: hadoop, hdfs, 大数据

搭建Hadoop集群需要以下步骤:

1. 安装Java环境和Hadoop软件包

在所有节点上安装Java环境和Hadoop软件包;

以下是详细的步骤:

在所有节点上安装Java环境和Hadoop软件包。如果您使用的是Ubuntu,可以使用以下命令安装Java环境和Hadoop软件包:

sudo apt-get update
sudo apt-get install default-jdk
sudo apt-get install hadoop

2. 配置Hadoop集群

在每个节点上配置Hadoop的相关配置文件(core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml、hadoop-env.sh等文件);

在每个节点上配置Hadoop的相关配置文件(core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml、hadoop-env.sh等文件)。以下是一个示例配置文件:

core-site.xml:

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

hdfs-site.xml:

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/home/hadoop/hdfs/namenode</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/home/hadoop/hdfs/datanode</value>
    </property>
</configuration>

mapred-site.xml:

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

yarn-site.xml:

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
        <value>org.apache.hadoop.mapred.ShuffleHandler</value>
    </property>
</configuration>

hadoop-env.sh:

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export HADOOP_HOME=/usr/share/hadoop
export HADOOP_CONF_DIR=/etc/hadoop
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME

3. 启动Hadoop集群

在NameNode节点上启动HDFS服务和YARN服务,然后在其他节点上启动DataNode和NodeManager服务;

在NameNode节点上启动HDFS服务和YARN服务,然后在其他节点上启动DataNode和NodeManager服务。先格式化HDFS:

hadoop namenode -format

然后启动HDFS和YARN:

start-dfs.sh
start-yarn.sh

在其他节点上启动DataNode和NodeManager:

hadoop-daemon.sh start datanode
yarn-daemon.sh start nodemanager

4. 创建HDFS目录

使用Hadoop fs命令创建HDFS目录;

使用Hadoop fs命令创建HDFS目录。例如:

hadoop fs -mkdir /user
hadoop fs -mkdir /user/hadoop

5. 上传文件到HDFS

使用Hadoop fs命令将文件上传到HDFS;

使用Hadoop fs命令将文件上传到HDFS。例如:

hadoop fs -put /path/to/local/file /user/hadoop/

6. 从HDFS下载文件

使用Hadoop fs命令从HDFS下载文件;

使用Hadoop fs命令从HDFS下载文件。例如:

hadoop fs -get /user/hadoop/file /path/to/local/

7. 在HDFS上删除文件

使用Hadoop fs命令在HDFS上删除文件。

使用Hadoop fs命令在HDFS上删除文件。例如:

hadoop fs -rm /user/hadoop/file

完成以上步骤后,您可以在Hadoop集群上进行文件的CRUD操作了。


http://www.niftyadmin.cn/n/5025927.html

相关文章

Cglib代理和JDK代理原理的区别

一、JDK Jdk动态代理&#xff0c;拿到目标类所继承的接口&#xff0c;生成代理类&#xff0c;并且代理类也会实现和目标类一样的接口。 二、Cglib Cglib代理功能更强&#xff0c;无论目标类是否实现接口都可以代理&#xff0c;他是基于继承的方式类代理目标类&#xff0c;如果…

Django:四、Djiango如何连接使用MySQL数据库

一、安装数据库第三方插件 安装下载mysql第三方插件 pip install mysqlclient 二、创建MySQL数据库 ORM可以帮助我们做两件事&#xff1a; 创建、修改、删除数据库中的表&#xff08;不用写SQL语句&#xff09;&#xff0c;但无法创建数据库操作表中的数据&#xff08;不用…

无线通信网络

一、无线局域网 WLAN概念 WLAN(Wireless Local Area Network)无线局域网,目前大部分无线产品都是根据IEEE802.11标准开发。 IEEE802.11标准 名称发布时间工作频段调制技术数据速率802.111997年2.4GHz ISM频段DB/SK、DQPSK1Mbps、2Mbps802.11b1998年2.4GHz ISM频段CCK5.5Mbps…

关于 Unity 连接 MuMu 模拟器上的 Unity Remote 5 的方法

在使用 Unity 开发 Android 的过程中&#xff0c;可以通过使用 Unity Remote 这个 app 来和真机连接&#xff0c;进而在真实环境下进行测试性能等工作&#xff0c;而本次则是由于其他问题引出的一个小坑&#xff0c;记录以备后续查询。 这次是由于在自学过程中遇到的一个工程&…

vue3实现卡片翻牌

vue3实现塔罗牌翻牌 前言一、操作步骤1.布局2.操作3.样式 总结 前言 最近重刷诡秘之主&#xff0c;感觉里面的塔罗牌挺有意思&#xff0c;于是做了一个简单的塔罗牌翻牌动画&#xff08;vue3vitets&#xff09; 一、操作步骤 1.布局 首先我们定义一个整体的塔罗牌盒子&…

人工智能创业,2023爆火风口项目:实景无人直播帮实体店精准获客

软件图片素材来自于公众号&#xff1a;生财风暴 关注进行领取价值1000元的采集软件&#xff0c;和呆头鹅批量剪辑和矩阵管理系统演示 把AI和直播结合在一起的实景自动直播你知道吗&#xff1f;如果提起人工智能创业项目啊&#xff0c;你还只知道CHHGPP的话&#xff0c;那不妨把…

Docker Volume(存储卷)

文章目录 Docker Volume(存储卷)1.什么是存储卷&#xff1f;2.为什么需要存储卷&#xff1f;3. 存储卷的分类1) 管理卷Volume方式一&#xff1a;Volume命令操作方式二&#xff1a; -v 或者--mount 指定方式三&#xff1a; Dockerfile 匿名卷小结Docker 卷生命周期Docker 卷共享…

在Linux和Windows上安装分布式事务seata

1 前言 官网地址&#xff1a;https://seata.io/ 源码地址&#xff1a;https://github.com/seata/seata 官网手册&#xff1a;https://seata.io/zh-cn/docs/ops/deploy-guide-beginner.html Seata&#xff0c;一款开源的分布式事务解决方案&#xff0c;致力于提供高性能和简…