使用sqoop操作HDFS与MySQL之间的数据互传

news/2024/5/20 5:09:41 标签: sqoop, hdfs, mysql

一,数据从HDFS中导出至MySQL中

1)开启Hadoop、mysql进程

start-all.sh

/etc/init.d/mysqld start

/etc/init.d/mysqld status

2)将学生数据stu_data.csv传到HDFS的/local_student目录下

hdfs中创建目录
hdfs dfs -mkdir /local_student
上传自定义的本地数据
hdfs dfs -put /root/lab/data/stu_data.csv /local_student/

注意:若出现以下错误:mkdir: Cannot create directory /student. Name node is in safe mode.

解决方案:hadoop dfsadmin -safemode leave

3)运行MySQL,创建数据库student_data,创建hdfs_stu_score_mysql表。

        进入MySQL:mysql -uroot -p123456(-u表示用户名,-pbiaosh)

create database student_data;

show databases;

use student_data;

create table hdfs_stu_score_mysql(

id int not null primary key,

name varchar(255),

age int,

score int);

退出客户端:

exit;

4)通过Sqoop,将HDFS上的数据导出到MySQL的hdfs_stu_score_mysql表中,具体命令如下:

sqoop export \

--connect jdbc:mysql://127.0.0.1:3306/student_data \

--username root \

--password 123456 \

--table hdfs_stu_score_mysql \
//--m 1 表示reduce数量定义为1个
--m 1 \

--export-dir /local_student/ \
//文件以制表符为分割符
--input-fields-terminated-by '\t' \

--columns="id,name,age,score"

5)MySQL中查询hdfs_stu_score_mysql表中数据

use student_data;

select * from hdfs_stu_score_mysql;

二,数据从MySQL中导入至HDFS中

1)在MySQL中筛选分数在85分(包括85分)以上的学生信息

# 进入MySQL客户端

mysql -uroot -p123456

use student_data;

# MySQL中建表

create table mysql_stu_top(

id int not null primary key,

name varchar(255),

age int,

score int

);

# 插入数据到mysql_stu_top表中:

insert into mysql_stu_top select * from hdfs_stu_score_mysql where score>=85;

# 查看结果

select * from mysql_stu_top;

# 退出客户端:

exit;

2)将MySQL中的mysql_stu_top表中数据导入到HDFS

sqoop import \

--connect jdbc:mysql://127.0.0.1:3306/student_data \

--username root \

--password 123456 \

--table mysql_stu_top \

--m 1 \

--target-dir /student/mysql_stu_top_hdfs

3)查看导入至HDFS中的数据

hdfs dfs -cat /student/mysql_stu_top_hdfs/part-m-00000


http://www.niftyadmin.cn/n/5243214.html

相关文章

大模型训练的过程(通俗易懂)

模型训练的过程是什么样的? 模型训练的过程就像是教一个小孩子去认识这个世界,让他从经验中学习和逐步提高。 数据预处理:这就像是给小孩子提供学习的教材。首先,我们需要将原始的文本数据(原始的故事、课本等&#x…

http和https的区别有哪些

目录 HTTP(HyperText Transfer Protocol) HTTPS(HyperText Transfer Protocol Secure) 区别与优势 应用场景 未来趋势 当我们浏览互联网时,我们经常听到两个常用的协议:HTTP(HyperText Tra…

准确!!!在 CentOS 8 上配置 PostgreSQL 14 的主从复制

在 CentOS 8 上配置 PostgreSQL 14 的主从复制,并设置 WAL 归档到特定路径 /home/postgres/archive 的步骤如下: 主服务器配置(主机) 配置 PostgreSQL: 编辑 postgresql.conf 文件: vim /data/postgres/p…

合并PDF(将多个pdf文件整合成一个pdf文件)

推荐使用下面这个免费在线的PDF文件合并工具,简单且易操作。 合并PDF - 在线上免费合并PDF文件 (smallpdf.com) 还有其他功能,不过现在我尚未使用其他功能: 关于费用:

华为配置风暴控制示例

组网需求 如下图所示,SwitchA作为二层网络到三层路由器的衔接点,需要防止二层网络转发的广播、未知组播或未知单播报文产生广播风 配置思路 用如下的思路配置风暴控制。 通过在GE0/0/1接口视图下配置风暴控制功能,实现防止二层网络转发的…

Zabbix自定义飞书webhook告警媒介1

说明:此配置仅适用于7版本及以上,低版本可能有问题 JavaScript 内容如下: try {var sourceData JSON.parse(value),req new HttpRequest(),response;if (sourceData.HTTPProxy) {req.setProxy(sourceData.HTTPProxy);}req.addHeader(Conte…

设置webstorm和idea符合Alibaba规范

只格式化自己更改的代码 ctrlShiftAltL 插件建议 Alibaba Java Coding Guidelines(新版本的idea不支持,有其他同名的非官方版可代替),使用方法在此不赘述 1、设置webstorm 包含 设置两个空格缩进,去掉行尾分号&#…

计算机基础知识66

Auth的补充 #概念:是django 的一个app,关于用户的登录,退出,注册... # 配置文件中配置:表会被迁移 INSTALLED_APPS [django.contrib.auth,] # auth有哪些表---权限控制: Permission:auth_permi…