datax连tdh写数问题记录

There are 3 datanode(s) running and 3 node(s) are excluded in this operation
{
“dfs.nameservices”: “nameservice1”,
“dfs.ha.namenodes.nameservice1”: “nn1,nn2”,
“dfs.namenode.rpc-address.nameservice1.nn1”: “bigdata2:8020”,
“dfs.namenode.rpc-address.nameservice1.nn2”: “bigdata6:8020”,
“dfs.client.failover.proxy.provider.nameservice1”: “org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider”
}
Hadoop 2.6.0版本起，HDFS客户端与datanode间通信的身份认证可通过启用SASL来实现。
如果datanode侧开启了SASL，那么在datax的job描述文件里，加上下面这个配置就可以了：
值需要参照hdfs-site.xml
“hadoopConfig”: { “dfs.data.transfer.protection”: “authentication”,
“dfs.encrypt.data.transfer”:true,
“dfs.block.access.token.enable”:true }
字段顺序必须和大数据表字段顺序一致
hdfswriter在win环境下去调用linux的hadoop由于目录分隔符问题，在hdfs上新建的临时目录会变为win下的\，一旦写入出错，datax会删除有用的主目录，造成数据文件丢失。
Hadoop本身的用户和组的关系，都是同步Linux系统中的，但是HDFS和Linux的超级用户组又有一点差别，HDFS中的超级用户组是supergroup，但是Linux中默认是没有supergoup这个组，这个时候只需要在Linux中增加supergroup这个组，然后将要在HDFS中加入到supergroup中的用户加到这个组中，再同步HDFS用户和组即可。
Mechanism level: Failed to find any Kerberos tgt
Kerberos认证失败：没有添加-Djava.security.krb5.conf=/hadoop/xdata/krb5.conf
hive的jdbc服务hiveserver2服务不稳定，容易掉线
解决办法：在hive的配置文件hive-site.xml中开启hiveserver2服务的高可用，即掉线了会马上再开启一个，配置如下
hive.server2.active.passive.ha.enable
true
还掉线就只能手动再启动一次hiveserver2服务了，jps查看应该是有两个RunJar进程的，一个hive的元数据服务，一个hiveserver2服务，如果只有一个就是掉了，要重启

datax连tdh写数问题记录

相关文章

Nginx make报错处理

软件测试八股文，软件测试常见面试合集【附答案】

【2023华为OD笔试必会25题--C语言版】《10 相同数字的积木游戏》——数组

马尔科夫链（一）

【图像基础知识】常见图像格式

Chapter8：线性系统的状态空间分析与综合(上)

【Kafka】Kafka3.3.1集群搭建指南KRaft版本

【AI大模型智慧办公】用《文心一言》1分钟写一篇博客简直yyds