HDFS文件查改增删及上传下载

news/2024/5/20 3:09:19 标签: hdfs, hadoop

1. 文件查改增删

1.1 查看文件

# 查看某目录下的文件
hadoop fs -ls <path>

# 显示文件大小
hadoop fs -du -h <path>
# 显示文件大小,s代表显示只显示总计(列出最后的和)。
hadoop fs -du -s -h <path>

# 输出文件内容
hadoop fs -cat <path>

1.2 创建文件

# 创建目录
hadoop fs -mkdir <path>
hadoop fs -mkdir -p ${1}

# 在指定目录创建一个新文件,如果文件存在,则创建失败
hadoop fs -touchz /user/zz/_SUCCESS
 

1.3 删除文件

hadoop fs -rm <src>

# 递归删除文件目录及文件
hadoop fs -rmr <src>
hadoop fs -rm -R -f -skipTrash ${1}

1.4 批量删除文件

介绍 一种批量删除hdfs文件(并跳过垃圾箱)的方法

# 1.查看hdfs 文件
hadoop fs -ls hdfs_path  

# 2.将hdfs上待删除的文件路径写入一个文本文件(table_hdfs_clean_list.txt)

# 3.编写删除脚本 clean.sh  (防止垃圾箱被塞满)
for i in `cat table_hdfs_clean_list.txt`
# for i in $(cat table_hdfs_clean_list.txt)
do
    hadoop fs -rm -r -skipTrash $i
done

# 4.执行 bash clean.sh


 

2. 文件移动

2.1 拷贝文件

# 拷贝文件,src为多个文件时,dst必须是个目录
hadoop fs -cp <src> <dst>

# 移动文件,当src为多个文件,dst必须为目录
hadoop fs -mv <src> <dst>

2.2 本地文件上传

# 前面为本地文件路径,后面为HDFS中文件路径
hadoop fs -put /data/zz/aa.txt /user/zz/
# hdfs dfs -put /data/zz/aa.txt  /user/zz/  
# hadoop fs -copyFromLocal <localsrc>...<dst>
# 若hdfs上已经存在文件,要强制覆盖,用 -f 命令
hadoop fs -put -f aa.txt /user/zz/

# 上传文件夹
hadoop fs -put /data/zz/test /user/zz/

# 从本地系统拷贝文件到dfs中,拷贝完删除源文件
hadoop fs -moveFromLocal <localsrc>...<dst>

2.3 下载文件到本地

hadoop fs -get /user/zz/test /data/zz/

# 从dfs中拷贝多个文件合并排序为一个文件到本地文件系统
hadoop fs -getmerge  <src> <localdst>

2.4 集群之间的拷贝

        把master集群的/foo/bar目录下的所有文件或目录名展开并存储到一个临时文件中,这些文件内容的拷贝工作被分配给多个map任务, 然后每个TaskTracker分别执行从master1到master2的拷贝操作。注意使用绝对路径进行操作。

hadoop distcp 
# -D mapred.job.map.capacity=5000 \
# -D mapred.job.priority=VERY_HIGH \
# -su dt-udw-insight,udwinsight \
# -du lbs-navi,awesomenavi \
hdfs://master1:8020/foo/bar hdfs://master2:8020/bar/foo


 


http://www.niftyadmin.cn/n/1399546.html

相关文章

图解强化学习 原理 超详解 (一)

强化学习 一.背景 机器学习是人工智能的一个分支&#xff0c;在近30多年已发展为一门多领域交叉学科&#xff0c;涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等的学科。强化学习(RL)作为机器学习的一个子领域&#xff0c;其灵感来源于心理学中的行为主义理论&#x…

模型的保存与加载

1. 加载模型 1.1 使用pmml加载模型 from pypmml import Modelmodel Model.fromFile("lightgbm.pmml") model.predict(X_test) 1.2 使用joblib加载模型 from sklearn.externals import joblib model joblib.load("model_{}.m".format(str(date))) 2…

图解强化学习 原理 超详解 (二)

上一篇博客中&#xff0c;我们讲解了 强化学习的 概念定义&#xff0c;以及详细全面的讲述了马尔可夫过程&#xff0c;这一篇我们将讲述马尔可夫决策过程所涉及到的策略优化及相关概念。 四.策略优化 马尔可夫决策过程对环境进行了描述&#xff0c;那么智能主体如何完成与环境…

图解强化学习 原理 超详解 (三)

上一篇博客中 我们讲述了马尔可夫决策过程中的策略优化及相关问题&#xff0c;在这一篇博客中我们将讲述Q-learn方法&#xff0c;以及深度强化学习的相关概念 六.Q-learn QLearning是强化学习算法中value-based的算法&#xff0c;Q即为Q&#xff08;s,a&#xff09;就是在某一…

Shell中常见关键字说明及区别对比

1. exit和return的区别 1.1 exit 关键字 exit命令是Shell内建命令&#xff0c;用于退出当前Shell进程。 可以指定退出状态n&#xff0c;n的取值范围是0-255&#xff0c;一般情况下&#xff0c;0表示正常退出&#xff0c;非零表示异常退出。 如果状态码是0-255之外的数值&am…

注意力机制最新综述解读

注意力机制最新综述解读 注意力模型(Attention Model&#xff0c;AM)已经成为神经网络中的一个重要概念&#xff0c;并在不同的应用领域进行了充分的研究。这项调查提供了一个结构化和全面的概述关于attention的发展。我们回顾了注意力机制被纳入的不同的神经网络结构&#xff…

打印模型特征重要性

以lightgbm模型为例 1. 获得特征重要性信息 def get_feature_importance_pair(gbm_model):feature_name_list gbm_model.feature_name()importance_list list(gbm_model.feature_importance())feature_importance_pair [(fe, round(im, 2)) for fe, im in zip(feature_na…

最全详细图解 策树原理(上)

决策树 1.定义&#xff1a; 决策树(Decision Tree)是在已知各种情况发生概率的基础上&#xff0c;通过构成决策树来求取净现值的期望值大于等于零的概率&#xff0c;评价项目风险&#xff0c;判断其可行性的决策分析方法&#xff0c;是直观运用概率分析的一种图解法。由于这种…