用Sqoop把数据从HDFS导入到关系型数据库

由于工作的需求,需要把HDFS中处理之后的数据转移至关系型数据库中成为对应的Table,在网上寻找有关的资料良久,发现各个说法不一,下面是本人自身测试过程:

使用Sqoop来实现这一需求,首先要明白Sqoop是什么?


 Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。


首先需以下要准备:

第一:hadoop的NameNode节点下lib文件夹中要有相应数据库驱动的jar包和sqoop的jar包。

第二:预先在相应的数据库创建Table,注:在HDFS的某个目录上的数据格式要和相应的表中的字段数量一致。

由于我这里使用的是Oracle数据库并且是使用Java来操作的。所以下面的代码以及截图都是以Java的例子:

首先标准化HDFS中文件格式,如下图:

Java代码如下:

Configuration conf = new Configuration();
conf.set("fs.default.name", "hdfs://192.168.115.5:9000");
conf.set("hadoop.job.ugi", "hadooper,hadoopgroup");
conf.set("mapred.job.tracker", "192.168.115.5:9001");


ArrayList<String> list = new ArrayList<String>(); // 定义一个list
list.add("--table");
list.add("A_BAAT_CLIENT"); // Oracle中的表。将来数据要导入到这个表中。
list.add("--export-dir");
list.add("/home/hadoop/traffic/capuse/near7date/activeUser/capuse_near7_activeUser_2013-02-06.log"); // hdfs上的目录。这个目录下的数据要导入到a_baat_client这个表中。
list.add("--connect");
list.add("jdbc:oracle:thin:@10.18.96.107:1521:life"); // Oracle的链接
list.add("--username");
list.add("TRAFFIC"); // Oracle的用户名
list.add("--password");
list.add("TRAFFIC"); // Oracle的密码
list.add("--input-fields-terminated-by");
list.add("|"); // 数据分隔符号
list.add("-m");
list.add("1");// 定义mapreduce的数量。


String[] arg = new String[1];
ExportTool exporter = new ExportTool();
Sqoop sqoop = new Sqoop(exporter);
sqoop.setConf(conf);
arg = list.toArray(new String[0]);
int result = Sqoop.runSqoop(sqoop, arg);
System.out.println("res:" + result); // 打印执行结果。

最后再在Main方法中运行即可,生成后表数据如下图所示:

通过上面的操作以及代码即可在Java中实现把HDFS数据生成对应的表数据;

不过除了可以用Java来实现,使用基本的命令也是可以的,命令如下:

在Hadoop bin目录中:

sqoop export --connect jdbc:oracle:thin:@10.18.96.107:1521:life \

--table A_BAAT_CLIENT --username TRAFFIC --password TRAFFIC \
--input-fields-terminated-by '|' \
--export-dir /home/hadoop/traffic/capuse/near7date/activeUser/test.log  -m 1

意思和上面Java中代码一样。

注意:

1、数据库表名、用户名、密码使用大写(这有可能会出现问题,因为我在测试过程中,使用小写时出现错误,出现No Columns这个经典错误。所以推荐大写,当然这不是必须);

2、预先建好相应的Table;

好了上面的代码实际上很是简单,不过如果是从未接触过此,那么在做的过程中会发现很多问题,而且网上的资料很是繁杂,在此个人作此篇一是为了自己做个Memo;同时也希望给需要的道友一份帮助。当然过程中也许还有很多问题,望高手斧正!!!


http://www.niftyadmin.cn/n/1555459.html

相关文章

JConsole之Java性能分析器使用

一、JConsole是什么 从Java 5开始 引入了 JConsole。JConsole 是一个内置 Java 性能分析器&#xff0c;可以从命令行或在 GUI shell 中运行。您可以轻松地使用 JConsole&#xff08;或者&#xff0c;它更高端的 “近亲” VisualVM &#xff09;来监控 Java 应用程序性能和跟…

关于Ehcache缓存中timeToLiveSeconds和timeToIdleSeconds

闲来无事测试了下Ehcache与MemCache比较&#xff0c;在此发现了Ehcache中一个小细节问题&#xff0c;以前未用心去注意过&#xff0c;在此特记录一下&#xff0c;同时也望能给需要的道友留下些益处&#xff1a; 其中主要记录的是timeToLiveSeconds和timeToIdleSeconds&#xf…

Oracle客户端使用

在日常开发中 有好些新同事不太明白如何连接Oracle服务端&#xff0c;在这里 我做个Oracle客户端常用方式 的简述&#xff1a; 其实连接Oracle服务的方式很多如&#xff1a;Native、PL、、&#xff0c; 其中Native for Oracle非常简单的配置 在做数据量小 或者说 数据简单的情…

Eclipse/MyEclipse中使用VSS

欲在MyEclipse/Eclipse中使用VSS&#xff0c;必先安装VSS插件、其安装方法与安装SVN类似&#xff0c;不多说&#xff1b;进入正题&#xff1a; 一、首先需要新建一个项目&#xff0c;即&#xff1a;本地工作目录如&#xff0c;项目类型可以自己根据需要来定义下图所示&#xf…

Log4j每天、每小时、每分钟定时生成日志文件

在做项目中基本上都用到了日志log&#xff0c;那么自然就会遇到问题&#xff0c;比方说&#xff0c;日志太大了怎么办&#xff1f;日志很乱怎么办&#xff1f; 这时我们就会想到如果能够把日志分为定时的生成即&#xff1a;Log4j每天、每小时、每分钟定时生成日志文件这样多好…

hmaster和datanaode启动后很快停止_如何解决热水循环系统中回水器导致燃气热水器频繁启动影响使用寿命的问题...

市场上的回水循环器都存在一开机&#xff0c;热水器同时启动的缺陷&#xff0c;大大缩短热水器的使用寿命。因此有的热水器或燃气壁挂炉厂家严禁在没有配水箱的情况下安装回水器&#xff0c;严格的厂家甚至拒绝保修&#xff0c;这是什么原因呢&#xff1f;这是因为热水回水器&a…

Access restriction: The type is not accessible due to restriction on required library问题处理

在做Java时&#xff0c;遇到了个小问题&#xff0c;在Import 包资源时出现&#xff1a; Access restriction: The type XXX is not accessible due to restriction on required library 错误&#xff01;如下图&#xff1a; 经过查证 原来是&#xff1a;JDK下如rt.jar包中某些…

字典占内存大吗_关于内存频率,高频和低频的性能差距大吗?

超过10万人正在关注赶快来关注吧&#xff0c;这里有你想找的热点资讯&#xff0c;这里有你想要的各种资料&#xff0c;还有海量的资源&#xff0c;还在等什么。快来关注&#xff0c;大佬带你开车。很多朋友在购买新机或者升级硬件的时候&#xff0c;都会特别注意硬件的性能&…