-
There are 3 datanode(s) running and 3 node(s) are excluded in this operation
{
“dfs.nameservices”: “nameservice1”,
“dfs.ha.namenodes.nameservice1”: “nn1,nn2”,
“dfs.namenode.rpc-address.nameservice1.nn1”: “bigdata2:8020”,
“dfs.namenode.rpc-address.nameservice1.nn2”: “bigdata6:8020”,
“dfs.client.failover.proxy.provider.nameservice1”: “org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider”
} -
Hadoop 2.6.0版本起,HDFS客户端与datanode间通信的身份认证可通过启用SASL来实现。
如果datanode侧开启了SASL,那么在datax的job描述文件里,加上下面这个配置就可以了:
值需要参照hdfs-site.xml
“hadoopConfig”: { “dfs.data.transfer.protection”: “authentication”,
“dfs.encrypt.data.transfer”:true,
“dfs.block.access.token.enable”:true } -
字段顺序必须和大数据表字段顺序一致
-
hdfswriter在win环境下去调用linux的hadoop由于目录分隔符问题,在hdfs上新建的临时目录会变为win下的\,一旦写入出错,datax会删除有用的主目录,造成数据文件丢失。
-
Hadoop本身的用户和组的关系,都是同步Linux系统中的,但是HDFS和Linux的超级用户组又有一点差别,HDFS中的超级用户组是supergroup,但是Linux中默认是没有supergoup这个组,这个时候只需要在Linux中增加supergroup这个组,然后将要在HDFS中加入到supergroup中的用户加到这个组中,再同步HDFS用户和组即可。
-
Mechanism level: Failed to find any Kerberos tgt
Kerberos认证失败:没有添加-Djava.security.krb5.conf=/hadoop/xdata/krb5.conf -
hive的jdbc服务hiveserver2服务不稳定,容易掉线
解决办法:在hive的配置文件hive-site.xml中开启hiveserver2服务的高可用,即掉线了会马上再开启一个,配置如下
hive.server2.active.passive.ha.enable
true
还掉线就只能手动再启动一次hiveserver2服务了,jps查看应该是有两个RunJar进程的,一个hive的元数据服务,一个hiveserver2服务,如果只有一个就是掉了,要重启