mac系统上hdfs java api的简单使用

news/2024/5/20 5:30:39 标签: java, macos, hdfs, hdfs java api, macos hdfs java

文章目录

  • 1、背景
  • 2、环境准备
  • 3、环境搭建
    • 3.1 引入jar包
    • 3.2 引入log4j.properties配置文件
    • 3.3 初始化Hadoop Api
  • 4、java api操作
    • 4.1 创建目录
    • 4.2 上传文件
    • 4.3 列出目录下有哪些文件
    • 4.4 下载文件
    • 4.5 删除文件
    • 4.6 检测文件是否存在
  • 5、完整代码

1、背景

在上一节中,我们简单学习了在命令行上如何操作hdfs shell api,此处我们通过java程序来操作一下。

2、环境准备

  1. 需要在本地环境变量中 配置 HADOOP_HOME 或在程序启动的时候通过命令行指定hadoop.home.dir的值,值为HADOOP的home目录地址。可通过org.apache.hadoop.util.Shell#checkHadoopHome方法验证。
  2. 我们的HADOOP最好是自己在本地系统进行重新编译,不然可能运行部分java api会出现问题。

3、环境搭建

3.1 引入jar包

<dependencyManagement>
    <dependencies>
        <dependency>
            <groupId>org.junit</groupId>
            <artifactId>junit-bom</artifactId>
            <version>5.7.1</version>
            <type>pom</type>
            <scope>import</scope>
        </dependency>
    </dependencies>
</dependencyManagement>
<dependencies>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-client</artifactId>
        <version>3.3.4</version>
    </dependency>
    <dependency>
        <groupId>org.junit.jupiter</groupId>
        <artifactId>junit-jupiter</artifactId>
        <scope>test</scope>
    </dependency>

    <dependency>
        <groupId>org.apache.logging.log4j</groupId>
        <artifactId>log4j-api</artifactId>
        <version>2.14.1</version>
    </dependency>
    <dependency>
        <groupId>org.apache.logging.log4j</groupId>
        <artifactId>log4j-core</artifactId>
        <version>2.14.1</version>
    </dependency>
</dependencies>

3.2 引入log4j.properties配置文件

log4j.appender.console = org.apache.log4j.ConsoleAppender
log4j.appender.console.Target = System.out
log4j.appender.console.layout = org.apache.log4j.PatternLayout
log4j.appender.console.layout.ConversionPattern = [%-5p] %d{ HH:mm:ss,SSS} [%t]:%m%n

log4j.rootLogger = debug,console

引入这个配置是为了,当hadoop报错时,更好的排查问题

3.3 初始化Hadoop Api

java">@TestInstance(TestInstance.Lifecycle.PER_CLASS)
class HdfsApiTest {

    private FileSystem fileSystem;

    private static final Logger log = LoggerFactory.getLogger(HdfsApiTest.class);

    @BeforeAll
    public void setUp() throws IOException, InterruptedException {
        // 1、将 HADOOP_HOME 设置到环境变量中

        Configuration configuration = new Configuration();
        // 2、此处的地址是 NameNode 的地址
        URI uri = URI.create("hdfs://192.168.121.140:8020");
        // 3、设置用户
        String user = "hadoopdeploy";

        // 此处如果不设置第三个参数,指的是客户端的身份,默认获取的是当前用户,不过当前用户不一定有权限,需要指定一个有权限的用户
        fileSystem = FileSystem.get(uri, configuration, user);
    }

    @AfterAll
    public void tearDown() throws IOException {
        if (null != fileSystem) {
            fileSystem.close();
        }
    }
}

此处我们需要注意的是,需要设置客户端操作的 用户,默认情况下获取的是当前登录用户,否则很有可能会出现如下错误

客户端用户使用不对
解决办法:
1、修改目录的访问权限。
2、修改客户端的用户,比如此处修改成hadoopdeploy

java_api_100">4、java api操作

4.1 创建目录

java">@Test
@DisplayName("创建hdfs目录")
public void testMkdir() throws IOException {
    Path path = new Path("/bigdata/hadoop/hdfs");
    if (fileSystem.exists(path)) {
        log.info("目录 /bigdata/hadoop/hdfs 已经存在,不在创建");
        return;
    }
    boolean success = fileSystem.mkdirs(path);
    log.info("创建目录 /bigdata/hadoop/hdfs 成功:[{}?]", success);
}

4.2 上传文件

java">@Test
@DisplayName("上传文件")
 void uploadFile() throws IOException {
     /**
      * delSrc: 文件上传后,是否删除源文件 true:删除 false:不删除
      * overwrite: 如果目标文件存在是否重写 true:重写 false:不重写
      * 第三个参数:需要上传的文件
      * 第四个参数:目标文件
      */
     fileSystem.copyFromLocalFile(false, true,
             new Path("/Users/huan/code/IdeaProjects/me/spring-cloud-parent/hadoop/hdfs-api/src/test/java/com/huan/hadoop/HdfsApiTest.java"),
             new Path("/bigdata/hadoop/hdfs"));
 }

4.3 列出目录下有哪些文件

java">@Test
@DisplayName("列出目录下有哪些文件")
 void testListFile() throws IOException {
     RemoteIterator<LocatedFileStatus> iterator = fileSystem.listFiles(new Path("/bigdata"), true);
     while (iterator.hasNext()) {
         LocatedFileStatus locatedFileStatus = iterator.next();
         Path path = locatedFileStatus.getPath();
         if (locatedFileStatus.isFile()) {
             log.info("获取到文件: {}", path.getName());
         }
     }
 }

4.4 下载文件

java">@Test
@DisplayName("下载文件")
 void testDownloadFile() throws IOException {
     fileSystem.copyToLocalFile(false, new Path("/bigdata/hadoop/hdfs/HdfsApiTest.java"),
             new Path("/Users/huan/HdfsApiTest.java"), true);
 }

4.5 删除文件

java">@Test
@DisplayName("删除文件")
public void testDeleteFile() throws IOException {
    fileSystem.delete(new Path("/bigdata/hadoop/hdfs/HdfsApiTest.java"), false);
}

4.6 检测文件是否存在

java">@Test
@DisplayName("检查文件是否存在")
 public void testFileExists() throws IOException {
     Path path = new Path("/bigdata/hadoop/hdfs/HdfsApiTest.java");
     boolean exists = fileSystem.exists(path);
     log.info("/bigdata/hadoop/hdfs/HdfsApiTest.java 存在:[{}]", exists);
 }

5、完整代码

https://gitee.com/huan1993/spring-cloud-parent/blob/master/hadoop/hdfs-api/src/test/java/com/huan/hadoop/HdfsApiTest.java


http://www.niftyadmin.cn/n/113998.html

相关文章

Nodejs环境配置 | Linux安装nvm | windows安装nvm

文章目录一. 前言二. Linux Nodejs环境配置1. 安装nvm2. 配置npm三. Windows Nodejs环境配置1. 安装nvm2. 配置npm四. nvm基本使用一. 前言 由于在实际开发中一些不同的项目需要不同的npm版本来启动&#xff0c;所以本篇文章会基于nvm这个node版本管理工具来进行Linux和Winodw…

【牛客网刷题记录】,后面遇到的一些问题都会在这里记录,欢迎大家批评指正

文章目录数据结构篇数组字符串链表树图堆算法篇查找数据结构篇 数组 省流&#xff1a; 计算二维数组指定元素的位置压缩矩阵 1. 执行以下代码段(程序已包含所有必需的头文件)会输出什么结果。 char a[] "abcd", b[10] "abcd";printf("%d, %d"…

Spark 内存运用

RDD Cache 当同一个 RDD 被引用多次时&#xff0c;就可以考虑进行 Cache&#xff0c;从而提升作业的执行效率 // 用 cache 对 wordCounts 加缓存 wordCounts.cache // cache 后要用 action 才能触发 RDD 内存物化 wordCounts.count// 自定义 Cache 的存储介质、存储形式、副本…

JavaSE23-泛型

文章目录一、概述二、泛型类 & 泛型接口1、定义泛型2、使用泛型3、泛型的确定3.1 创建对象时确定3.2 定义子类时确定三、泛型方法1、定义泛型2、使用泛型3、泛型的确定四、泛型上限 & 泛型下限1、泛型限定的概念2、泛型上限3、泛型下限一、概述 泛型可以把类型明确的工…

cp,chmod,chown,chgrp,grep命令详解及应用实例

cp 功能&#xff1a;复制文件或目录 常用选项&#xff1a; -a 归档 -b 目标文件存在创建备份&#xff0c;备份文件是文件名跟~ -f 强制复制文件或目录 -r 递归复制目录 -p 保留原有文件或目录属性 -i 覆盖文件之前先询问用户 -u 当源文件比目的文件修改时间新时才复制 -v 显示复…

物盾安全汤晓冬:工业互联网企业如何应对高发的供应链安全风险?

编者按&#xff1a;物盾安全是一家专注于物联网安全的产品厂商&#xff0c;其核心产品“物安盾”在能源、制造、交通等多个领域落地&#xff0c;为这些行业企业提供覆盖物联网云、管、边、端的安全整体解决方案。“物安盾”集成了腾讯安全制品扫描&#xff08;BSCA&#xff09;…

kafka入门到实战三(单线程实现顺序消费,含demo)

这里需要前面两章的基础&#xff0c;如果没有环境或者看不懂在说什么&#xff0c;就翻一翻前两章。 kafka顺序消费&#xff08;单线程&#xff09; 顺序消费 顺序消费&#xff1a;是指消息的产生顺序和消费顺序相同。不管你用的是什么q或者kafka还是sofa&#xff0c;顺序依赖…

工作实战之微服务认证实现

目录 前言 一、钻石段位springsecurityspringsessionredis缓存 1.yml配置将session存储到redis中&#xff0c;实现session共享 2.maven引入 3.原理分析 a.SessionRepositoryFilter拦截进行session存储介质的选择&#xff0c;可以是jdk缓存&#xff0c;或者数据库&#xff0c;也…