Flume多路复用模式把接收数据注入kafka 的同时,将数据备份到HDFS目录

news/2024/5/20 5:30:43 标签: 大数据, flume, kafka, hadoop, hdfs
  1. 启动hadoop、在hdfs中创建需要访问的目录

配置Hadoop的核心配置文件

core-site.xml:设置Hadoop的核心配置参数,例如NameNode的地址、数据块大小、副本数量等。示例配置如下:

<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://localhost:9000</value>
  </property>
</configuration>

hdfs-site.xml:设置HDFS(Hadoop分布式文件系统)的参数,例如数据块复制因子、NameNode的存储路径等。示例配置如下:

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>1</value>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>/opt/hadoop-3.3.0/data/namenode</value>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>/opt/hadoop-3.3.0/data/datanode</value>
  </property>
</configuration>

mapred-site.xml:如果使用MapReduce框架,则需要配置该文件,设置JobTracker的地址等信息。示例配置如下:

<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
</configuration>

格式化NameNode。在终端中输入以下命令:

hdfs namenode -format
需要注意的是,格式化会删除所有已有的HDFS数据,所以需要谨慎执行。

配置Hadoop集群的JAVA_HOME

vim ./etc/hadoop/hadoop-env.sh
#添加JAVA_HOME路径
export JAVA_HOME = /opt/jdk-8

启动Hadoop集群。在终端中输入以下命令:

start-all.sh
如果一切正常,Hadoop集群将启动成功

创建hdfs存储目录

hdfs dfs -mkdir -p /user/test/flumebackup

查看是否有该目录

hdfs dfs -ls -R /user/

2.启动zookeeper、kafka并创建主题

因为我已经做了一遍该配置,请移步至→

https://blog.csdn.net/HaveAGoodDay428/article/details/129567879

3.配置flume配置文件并启动flume

创建flume配置文件flume-kafka.conf

启动Flume

./bin/flue-ng agent -n a1 -c conf -f ./conf/flume-kafka.conf -Dflume.root.logger=INFO,console

4.netcat向本地10050端口发送socket数据

nc localhost 10050
可以通过查看hdfs存储目录中每次发送socket数据时是否新增文件


http://www.niftyadmin.cn/n/153769.html

相关文章

【CSS】CSS 特性 ⑤ ( CSS 优先级 | 经典权重计算示例 1 )

文章目录基础选择器权重一、权重计算示例 11、代码示例2、权重分析3、展示效果二、权重计算示例 21、代码示例2、权重分析3、展示效果三、权重计算示例 31、代码示例2、权重分析3、展示效果基础选择器权重 基础选择器 权重 : CSS 选择器选择器优先级 - 权重计算继承父标签的样…

Maven依赖配置、依赖传递和依赖范围。

一、依赖传递。 依赖具有传递性&#xff1a; 1、直接依赖&#xff1a;在当前项目中通过依赖配置建立的依赖关系。 2、间接依赖&#xff1a;被资源的资源如果依赖其他资源&#xff0c;当前项目简介依赖其他资源。 3、依赖传递冲突问题&#xff1a; 路径优先&#xff1a;当依…

Chrome 浏览器获取网址映射 IP 地址 DNS 解析过程详细介绍

解析阶段详细流程说明 步骤说明①浏览器输入&#xff1a;http://www.baidu.com②查找浏览器自身 DNS 缓存&#xff1a;chrome://net-internals/#dns③Windows 系统&#xff1a;查找系统 hosts 文件、Linux 系统&#xff1a;查找 /etc/hosts 文件④浏览器就会发起一个 DNS 系统…

pytorch入门10--循环神经网络(RNN)

一、简要介绍 RNN适用了处理序列性的数据&#xff0c;并利用权重共享机制&#xff08;即一个RNN网络使用多次&#xff09;。序列性数据用一个例子来理解&#xff0c;比如我们想要预知某一天是否会下雨&#xff0c;我们采集了大量天数的气象信息&#xff0c;气象信息包括温度、气…

SpringCloud Alibaba 学习圣经,10万字实现 SpringCloud 自由

40岁老架构师尼恩的掏心窝&#xff1a; 现在拿到offer超级难&#xff0c;甚至连面试电话&#xff0c;一个都搞不到。 尼恩的技术社群中&#xff08;50&#xff09;&#xff0c;很多小伙伴凭借 “左手云原生右手大数据 SpringCloud Alibaba 微服务“三大绝活&#xff0c;拿到了…

一、快速入门 MongoDB 数据库

文章目录一、NoSQL 是什么1.1 NoSQL 简史1.2 NoSQL 的种类及其特性1.3 NoSQL 特点1.4 NoSQL 的优缺点1.5 NoSQL 与 SQL 数据库的比较二、MongoDB 基础知识2.1 MongoDB 是什么2.2 MongoDB 的体系结构2.3 MongoDB 的特点2.4 MongoDB 键特性2.5 MongoDB 的核心服务和工具2.6 Mongo…

nginx反向代理、负载均衡、静态资源

一、安装apt updateapt install nginx安装后&#xff1a;二进制文件目录&#xff1a;/usr/sbin/nginx主配置文件目录&#xff1a;/etc/nginx/nginx.conf二、命令启动&#xff1a;nginx停止&#xff1a;nginx -s stop优雅退出&#xff1a;nginx -s quit重新加载配置文件&#xf…

简述一下cookie、session以及token的区别

相同都是用来签权服务器的&#xff0c;不同的是主要是存储位置和存储容量 cookie数据存放在客户的浏览器上、session数据放在服务器内存上、token存储在服务器数据库上 cookie 单个<4kb&#xff0c;不超过20个&#xff1b;session不限制 token是接口测试时鉴权码&#xf…