Hadoop集成对象存储和HDFS磁盘文件存储

news/2024/5/20 5:30:47 标签: hadoop, hdfs, 大数据, 阿里云

1.环境配置

1.1 版本说明

组件版本是否必须其他事项
Hadoop3.3.0+hadoop3.3.0之后原生支持国内主要对象存储
Hive3.1.3实测没有Hive也可以使用sparksql,使用hive更好的管理HDFS数据
spark3.3.1hive和spark整合后,语法为HSQL,自定义函数按照hive使用即可
cos未知

说明:由于部分生产日志过大,且需要对近期数据进行分析,HDFS文件存储成本较高,因此定于将近期热数据存储与hdfs,冷数据存储在更便宜的对象存储之上。

1.2 相关组件官网

Hadoop官网:https://hadoop.apache.org/docs/r3.3.4/hadoop-cos/cloud-storage/index.html
腾讯对象存储cos使用官网:https://cloud.tencent.com/document/product/436/6884
spark官网:https://spark.apache.org/docs/3.3.1/

hadoop_15">1.3 cos与hadoop集成特征

  • 支持 Hadoop MapReduce 和 Spark 将数据写入 COS 并直接从 COS 中读取。

  • 实现了Hadoop文件系统的接口,提供了与HDFS相同的伪层次目录结构。

  • 支持大文件分段上传。单个文件最大支持19TB

  • 高性能和高可用性。Hadoop-COS 与 HDFS 的性能差异不超过 30%。

1.4 使用限制

对象存储不是文件系统,它有一些限制:

  1. 对象存储是一种键值存储,它天然不支持分层目录。通常,使用对象键中的目录分隔符来模拟分层目录,例如“/hadoop/data/words.dat”。

  2. COS 对象存储目前不支持对象的追加操作。这意味着您不能将内容附加到现有对象(文件)的末尾。

  3. 删除和重命名操作都是非原子的,这意味着操作会被中断,操作结果可能会处于不一致的状态。

  4. 对象存储有不同的授权模型:

  • 目录权限报告为 777。

  • 文件权限报告为 666。

  • 文件所有者被报告为本地当前用户。

  • 文件组也被报告为本地当前用户。

  1. 支持大文件(最大40TB)分段上传,但分段数量限制为10000。

  2. 每次列出的文件数量限制为 1000 个。

2.Hadoop与HDFS集成

详见本博客《最全Hadoop实际生产集群高可用搭建》

3.Hadoop与yarn集成

3.1 概念

  • Bucket:COS 中存储数据的容器,名称由用户自定义的 BucketName 和用户 AppID 组成。

  • Appid:用户维度的唯一资源标识符。

  • SecretId:用于验证用户身份的 ID

  • SecretKey:用于验证用户身份的密钥

  • Region:桶所在的区域。

  • CosN:Hadoop-COS 使用cosn作为其 URI 方案,因此 CosN 通常用来指代 Hadoop-COS。

3.2 依赖关系

  • cos_api(5.4.10 或更高版本)
  • cos-java-sdk(推荐2.0.6版本)
  • joda-time(推荐2.9.9版本)
  • httpClient(推荐4.5.1或更高版本)
  • Jackson:jackson-core、jackson-databind、jackson-annotations(2.9.8 或更高版本)
  • bcprov-jdk15on(推荐1.59版本)

3.3 属性配置

如果您计划使用 COS 作为 Hadoop 或其他大数据系统的默认文件系统,则需要在 core-site.xml 中将fs.defaultFS配置为 Hadoop-COS 的 URI。Hadoop-COS 使用cosn作为其 URI 方案,并使用存储桶作为其 URI 主机。同时,您需要显式设置fs.cosn.userinfo.region来指示您的存储桶所在的区域。

对于 Hadoop-COS,fs.defaultFS是一个选项。如果您只是暂时使用 COS 作为 Hadoop 的数据源,则无需设置该属性,只需在使用时指定完整的 URI 即可。例如:hadoop fs -ls cosn://testBucket-125236746/testDir/test.txt。

fs.cosn.userinfo.region是 Hadoop-COS 的必需属性。原因是 Hadoop-COS 必须知道使用存储桶的区域,才能准确构造 URL 来访问它。

COS支持多区域存储,不同区域默认有不同的访问域。建议根据自己的业务场景选择就近的存储区域,以提高对象上传下载速度。

3.3.1 配置core-site.xml

hadoop官网的配置名称有些问题,建议参考腾讯的官网来配置

 <!-- URI 和区域属性 -->
    <!-- 此配置适用于将cos位置默认的存储位置
        <property>
        <name>fs.defaultFS</name>
        <value>cosn://<bucket-appid></value>
        <description>
            Optional: If you don't want to use CosN as the default file system, you don't need to configure it.
        </description>
    </property> -->

    <property>
        <name>fs.cosn.bucket.region</name>
        <value>ap-xxx</value>
        <description>The region where the bucket is located</description>
    </property>



<!--用户身份验证属性-->
<property>
        <name>fs.cosn.credentials.provider</name>
        <value>org.apache.hadoop.fs.auth.SimpleCredentialProvider</value>
</property>

    <property>
        <name>fs.cosn.userinfo.secretId</name>
        <value>xxxx</value>
        <description>Tencent Cloud Secret Id </description>
    </property>

    <property>
        <name>fs.cosn.userinfo.secretKey</name>
        <value>xxxx</value>
        <description>Tencent Cloud Secret Key</description>
    </property>

<!--Integration Properties-->
<property>
        <name>fs.cosn.impl</name>
        <value>org.apache.hadoop.fs.CosFileSystem</value>
        <description>The implementation class of the CosN Filesystem</description>
    </property>

    <property>
        <name>fs.AbstractFileSystem.cosn.impl</name>
        <value>org.apache.hadoop.fs.CosN</value>
        <description>The implementation class of the CosN AbstractFileSystem.</description>
    </property>
<!--Other Runtime Properties-->
<property>
        <name>fs.cosn.tmp.dir</name>
        <value>/tmp/hadoop_cos</value>
        <description>Temporary files would be placed here.</description>
    </property>

    <property>
        <name>fs.cosn.buffer.size</name>
        <value>33554432</value>
        <description>The total size of the buffer pool.</description>
    </property>

    <property>
        <name>fs.cosn.block.size</name>
        <value>8388608</value>
        <description>
        Block size to use cosn filesysten, which is the part size for MultipartUpload. Considering the COS supports up to 10000 blocks, user should estimate the maximum size of a single file. For example, 8MB part size can allow  writing a 78GB single file.
        </description>
    </property>

    <property>
        <name>fs.cosn.maxRetries</name>
        <value>3</value>
        <description>
      The maximum number of retries for reading or writing files to COS, before throwing a failure to the application.
        </description>
    </property>

    <property>
        <name>fs.cosn.retry.interval.seconds</name>
        <value>3</value>
        <description>The number of seconds to sleep between each COS retry.</description>
    </property>

3.3.2 属性配置介绍

特性描述默认值必需的
fs.defaultFS配置Hadoop使用的默认文件系统。没有任何
fs.cosn.credentials.provider此选项允许用户指定如何获取凭据。如果未指定,凭证提供程序的默认顺序为:1. org.apache.hadoop.fs.auth.SimpleCredentialsProvider2.org.apache.hadoop.fs.auth.EnvironmentVariableCredentialsProvider。没有任何
fs.cosn.userinfo.secretId/secretKey您账户的API密钥信息没有任何是的
fs.cosn.bucket.region桶所在区域。没有任何是的
fs.cosn.implCosN 文件系统的实现类。没有任何是的
fs.AbstractFileSystem.cosn.implCosN AbstractFileSystem 的实现类。没有任何是的
fs.cosn.tmp.dir程序运行过程中,cosn生成的临时文件会存放在这里。/tmp/hadoop_cos
fs.cosn.缓冲区大小缓冲池的总大小。要求大于或等于块大小。33554432
fs.cosn.块大小文件块的大小。考虑到每个文件最多可以分为10000个上传的限制,必须根据使用的单个文件的最大大小来设置该选项。例如,8MB 的部分大小可以允许写入 78GB 的​​单个文件。8388608
fs.cosn.upload_thread_pool文件流式传输到 COS 时并发上传的线程数。CPU核心数*3
fs.cosn.read.ahead.block.size每个预读块的大小。524288 (512KB)
fs.cosn.read.ahead.queue.size预读队列的长度。10
fs.cosn.maxRetries在向应用程序抛出故障之前,向 COS 读取或写入文件的最大重试次数。3
fs.cosn.重试.间隔.秒每次重试之间休眠的秒数3

3.3.3 更新其他位置的core-site.xml

hive和spark的core-site.xml文件并分发

3.4 依赖包配置

3.4.1 获取 Hadoop-COS 分发包及其依赖

下载地址:Hadoop-COS release

hadoopcos_187">3.4.2 安装hadoop-cos

  1. hadoop-cos-{hadoop.version}-x.x.x.jar和cos_api-bundle-5.x.x.jar 拷贝到 $HADOOP_HOME/share/hadoop/tools/lib下。

NOTE: 根据hadoop的具体版本选择对应的jar包,若release中没有提供匹配版本的jar包,可自行通过修改pom文件中hadoop版本号,重新编译生成。

  1. 修改 hadoop_env.sh 在 $HADOOP_HOME/etc/hadoop目录下,进入 hadoop_env.sh,增加如下内容,将 cosn 相关 jar 包加入 Hadoop 环境变量:
for f in $HADOOP_HOME/share/hadoop/tools/lib/*.jar; do
  if [ "$HADOOP_CLASSPATH" ]; then
    export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$f
  else
    export HADOOP_CLASSPATH=$f
  fi
done
  1. hadoop-cos-{hadoop.version}-x.x.x.jar和cos_api-bundle-5.x.x.jar 拷贝到 $HIVE_HOME/lib下

4.测试使用

hadoop_204">4.1 hadoop测试

hadoop fs -ls -R cosn://examplebucket-1250000000000/<路径>
hadoop fs -ls -R /<路径>(配置了fs.defaultFS选项为 cosn:// 后)

#例如:
hadoop fs -ls -R cosn://hdfs-test-1252681929/
-rw-rw-rw-   1 root root       1087 2018-06-11 07:49 cosn://hdfs-test-1252681929/LICENSE
drwxrwxrwx   - root root          0 1970-01-01 00:00 cosn://hdfs-test-1252681929/hdfs
drwxrwxrwx   - root root          0 1970-01-01 00:00 cosn://hdfs-test-1252681929/hdfs/2018
-rw-rw-rw-   1 root root       1087 2018-06-12 03:26 cosn://hdfs-test-1252681929/hdfs/2018/LICENSE
-rw-rw-rw-   1 root root       2386 2018-06-12 03:26 cosn://hdfs-test-1252681929/hdfs/2018/ReadMe
drwxrwxrwx   - root root          0 1970-01-01 00:00 cosn://hdfs-test-1252681929/hdfs/test
-rw-rw-rw-   1 root root       1087 2018-06-11 07:32 cosn://hdfs-test-1252681929/hdfs/test/LICENSE
-rw-rw-rw-   1 root root       2386 2018-06-11 07:29 cosn://hdfs-test-1252681929/hdfs/test/ReadMe

4.2 hive及spark测试

hive测试

-- 测试数据分区插入对象存储
CREATE TABLE `student1`(
id int, name string
  )
PARTITIONED BY (
  `part_day` string)
ROW FORMAT SERDE
  'org.apache.hadoop.hive.ql.io.orc.OrcSerde'
STORED AS INPUTFORMAT
  'org.apache.hadoop.hive.ql.io.orc.OrcInputFormat'
    OUTPUTFORMAT
  'org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat'
LOCATION
  'cosn://hdfs-test-1252681929/test/student1';

set spark.yarn.queue=xxxx;
insert into table student1 values(1,'abc','20231217');

spark类似


http://www.niftyadmin.cn/n/5289252.html

相关文章

【Python_09】Python基础语法(数据容器之列表详解)

文章目录 概述Python中的数据容器列表1.1 定义列表1.2列表取值与修改1.3 列表遍历1.3.1 使用for循环遍历列表1.3.2 使用while循环遍历1.3.3 使用enumerate()函数获取索引和元素 1.4 列表常用方法 概述 数据容器是用来存储和组织数据的数据结构和对象。可以以不同的方式存储和操…

Linux操作系统( YUM软件仓库技术 )

镜像文件的回环挂载&#xff08;把iso镜像文件释放成系统安装光盘&#xff09;foundation0上操作 回环挂载的用法&#xff1a; du -sh 对象名 //估算文件&#xff08;一切对象皆文件&#xff09;大小 !$ //上一条命令的最后一个参数 新创建的挂载点目录是空白目录 挂载&#xf…

PostgreSQL 可观测性最佳实践

简介 软件简述 PostgreSQL 是一种开源的关系型数据库管理系统 (RDBMS)&#xff0c;它提供了许多可观测性选项&#xff0c;以确保数据库的稳定性和可靠性。 可观测性 可观测性&#xff08;Observability&#xff09;是指对数据库状态和操作进行监控和记录&#xff0c;以便在…

【数值分析】反幂法,matlab实现

反幂法20231226 一种求实矩阵 A {A} A 的按模最小的特征值&#xff0c;及其对应的特征向量 x i {x_i} xi​ 的方法&#xff0c;只能求一个。 要保证矩阵最小特征值只有一个&#xff0c;有 n {n} n 个线性无关的特征向量&#xff0c;矩阵可逆。 可以通过求矩阵 A − 1 {A^{…

NFC物联网智能巡检系统设计方案

1 相关技术介绍 ​ 1.1 NFC 技术介绍 NFC(Near Field Communication&#xff0c;NFC)技术为非接触式射频识别技术(RFID)的一种打展&#xff0c;与互联互通技术相互结合演变而来&#xff0c;在ISO/IEC 18092 定义了与NFC 相关的技术细节。由 NXP 公司提议发起&#xff0c;Sony、…

【数学建模美赛M奖速成系列】Matplotlib绘图技巧(一)

Matplotlib图像基础 写在前面1 基本绘图实例&#xff1a;sin、cos函数图2 plot()函数详解**kwargs参数&#xff1a; 3 matplotlib中绘图的默认配置4 设置图的横纵坐标的上下界5 设置横纵坐标上的记号6 调整图像的脊柱7 添加图例8 给一些特殊点加注释9 子图最后 写在前面 前面我…

springboot(ssm智慧校园之家长子系统 智慧校园系统Java系统

springboot(ssm0智慧校园之家长子系统 智慧校园系统Java系统 开发语言&#xff1a;Java 框架&#xff1a;ssm/springboot vue JDK版本&#xff1a;JDK1.8&#xff08;或11&#xff09; 服务器&#xff1a;tomcat 数据库&#xff1a;mysql 5.7&#xff08;或8.0&#xff09…

【React】echarts-for-react 的使用

文章目录 echarts-for-react &#xff1a;一个简单的 Apache echarts 的 React 封装配置项手册&#xff1a;https://echarts.apache.org/zh/option.html#title 安装依赖 $ npm install --save echarts-for-react# echarts 是 echarts-for-react的对等依赖,您可以使用自己的版本…