【Hadoop-Distcp】通过Distcp的方式进行两个HDFS集群间的数据迁移

news/2024/5/20 1:12:16 标签: hadoop, hdfs

【Hadoop-Distcp】通过Distcp的方式进行两个HDFS集群间的数据迁移

  • 1)Distcp 工具简介及参数说明
  • 2)Shell 脚本

1)Distcp 工具简介及参数说明

【Hadoop-Distcp】工具简介及参数说明

2)Shell 脚本

  • 应用场景:

    两个实时集群交互数据,A 集群B 集群补充数据。

  • 主要说明:

    1、将表名统一放到服务器文本 hotDataTable 中,按照需要将需要补充数据的表放入文本即可。

    2、-i 参数:跳过异常,避免文件迁移过程中出现文件不存在等异常情况出现,异常会中断迁移任务。

    3、-skipcrccheck 参数:跳过 crc 算法校验,会加快数据传输速度。

    4、-update 与 -delete 参数:按照文件进行校验,B 集群 有的会保存,B 集群 没有的会按照 A 集群 进行迁移,B 集群 多出的会进行删除。(通常update与delete一起使用)

  • 其余说明请参考:

    【Hadoop-Distcp】工具简介及参数说明

kinit -kt /opt/conf/test.keytab test@PRD.TEST.COM
for tablename in `cat /opt/corns/hotDataTable`
do
hadoop distcp -D ipc.client.fallback-to-simple-auth-allowed=true \
-D mapred.task.timeout=60000000 \
-D mapreduce.job.name=${tablename}-${sample_date} \
-Dmapred.job.queue.name=queuename \
-i \
-skipcrccheck \
-update \
-delete \
-direct \
-bandwidth=60 \
-m=50 \
-numListstatusThreads=40 \
webhdfs://10.1.1.1:4008/user/test/hive/dw_test.db/${tablename}/sample_date=${sample_date}/ \
hdfs://nameserver/warehouse/tablespace/external/hive/test.db/${tablename}/sample_date=${sample_date}
done

http://www.niftyadmin.cn/n/5245115.html

相关文章

网络通信的流程,浏览器地址?

1.没有交换机的通信 在一个机房内,有两台电脑相互需要通信 假设现在有三台电脑: 随着电脑的增加,线的数量也在增加,因此显得很臃肿,次数交换机诞生,很好的解决了这一方面, 交换机不需要进行多条线的连接: 通过给设备分配,ip地址来实现局域网…

配置spring boot3后redis NOAUTH Authentication required

升级到spring boot3之后,redis报错 redis.clients.jedis.exceptions.JedisDataException: NOAUTH Authentication required检查完密码之后都没有问题,后来发现是配置的原因。 在application.properties配置文件里 加上.data 原来是spring.redis.passwor…

软件定制开发与标准化产品的比较及选择

随着信息技术的不断发展,软件已经成为企业运营中不可或缺的一部分。而在选择软件时,企业用户通常面临两个选择:软件定制开发和标准化产品。软件定制开发和标准化产品各有其优缺点,以下是对两者的比较和选择: 1.成本&a…

LightDB - 支持substring_index 函数[mysql兼容]

从 23.4 版本开始, LightDB 支持 mysql 的substring_index 函数。下面的这个函数进行介绍 substring_index(str, delim, count ) 这个函数用于从指定字符串str中返回到达分隔符delim出现次数(count)之前的子字符串。。具体见之后用例: mysql 中介绍&a…

第58天:django学习(七)

orm增删改查 在model.py中建表,然后迁移数据库 from django.db import models ​ # Create your models here. ​ class Book(models.Model):title models.CharField(max_length32)price models.DecimalField(max_digits8, decimal_places2)publish_date models.DateField(…

一键在线部署Openstack

一、一键在线部署Openstack 1、 centos7.9以上系统,64位系统,4核,8G内存 2、 修改主机名,配置静态IP地址及网关、DNS参数,测试网络连通性 查看系统版本 cat /etc/redhat-release hostnamectl set-hostname openstack v…

【王道】计算机组成原理笔记 第四章 指令系统

前三章讲的分别是概述、运算器和存储器,接下来的第四章和第五章内容都是关于控制器的,我们知道,控制器通过指令来控制计算机,所以这一章介绍指令,下一章介绍控制器如何通过指令来控制计算机。 4.1.1 指令格式 1. 指令…

鸿蒙OS应用开发的开发环境

鸿蒙OS应用开发的开发环境 鸿蒙系统发展越来越快,已经开始走进千家万户,从手机到电视机,再到汽车,以后各种手表、智能设备等等。这已经是一个广泛应用的操作系统,也是跟大家生活密切相关的操作系统。要想在这个平台上…