Hive表使用ORC格式和SNAPPY压缩建表语句示例

news/2024/5/20 5:30:42 标签: hive, hadoop, hdfs, sql, 数据仓库, 大数据

Hive表使用ORC格式和SNAPPY压缩建表语句示例

下面是一个sql示例:

-- 创建数据库
CREATE DATABASE IF NOT EXISTS mydatabase;

-- 使用数据库
USE mydatabase;

-- 创建分区表,使用ORC文件格式,采用Snappy压缩算法
CREATE TABLE IF NOT EXISTS my_table (
id INT,
name STRING
)
PARTITIONED BY (dt STRING)
STORED AS ORC
LOCATION '/user/hive/warehouse/my_table'
TBLPROPERTIES ("orc.compress"="snappy");

-- 加载数据到分区表
INSERT INTO my_table PARTITION (dt=20240101) VALUES
(101, 'Alice'),
(102, 'Bob');

-- 查询分区表数据
SELECT * FROM my_table;

在这个示例中:

  • 首先创建了一个名为 mydatabase 的数据库并切换到该数据库。
  • 创建了一个名为 my_table 的分区表 ,包含了 id 和 name 两列。
  • 使用 PARTITIONED BY (dt STRING) 对表进行了日期分区,将数据按照日期进行分区存储。
  • 使用 STORED AS ORC 指定了使用ORC文件格式存储数据,ORC是Hive中常用的列式存储格式。
  • 使用 LOCATION 指定了表的存储路径。
  • 使用 TBLPROPERTIES (“orc.compress”=“snappy”) 设置了压缩算法为SNAPPY,对数据进行压缩存储。

Hive支持的常用文件格式

  • ORC(Optimized Row Columnar):列式存储格式,提供高压缩比和高性能的查询。
  • Parquet:另一种列式存储格式,支持高效的压缩和查询。
  • Text:文本文件格式,易于阅读和处理。
  • SequenceFile:Hadoop中的二进制文件格式,适合大数据存储和处理。

Hive支持的常用压缩算法

  • SNAPPY:快速压缩算法,提供较高的压缩比和速度。
  • GZIP:通用的压缩算法,提供较高的压缩比,但速度相对较慢。
  • LZO:高效的压缩算法,支持快速压缩和解压缩,适合大数据处理。
  • BZIP2:提供更高的压缩比,但速度较慢,适合对存储空间要求较高的场景。

在选择压缩算法时,一般可以考虑以下几个因素

  1. 压缩比:不同的压缩算法具有不同的压缩比,一般来说,压缩比越高,存储空间占用越小,但可能会影响查询性能。
  2. 压缩速度:有些压缩算法压缩速度较快,适合对数据进行频繁压缩,而有些压缩算法压缩速度较慢,但压缩比较高。
  3. 解压速度:压缩算法解压速度也是一个重要考虑因素,因为查询时需要解压数据。

http://www.niftyadmin.cn/n/5411480.html

相关文章

Sentinel 面试题及答案整理,最新面试题

Sentinel的流量控制规则有哪些,各自的作用是什么? Sentinel的流量控制规则主要包括以下几种: 1、QPS(每秒查询量)限流: 限制资源每秒的请求次数,适用于控制高频访问。 2、线程数限流&#xf…

灵神笔记(1)----动态规划篇

文章目录 介绍动态规划入门:从记忆化搜索到递推打家劫舍递归记忆化递归递推滚动变量 背包0-1 背包递归写法记忆化递归 目标和记忆化搜索递推两个数组一个数组 完全背包记忆化递归搜索 零钱兑换记忆化递归递推 背包问题变形[至多|恰好|至少] 最长公共子序列记忆化搜索…

社交媒体与企业发展:探索Facebook的商业策略

在当今数字化时代,社交媒体已经成为了企业发展的重要一环,而Facebook作为全球最大的社交平台之一,其商业策略对企业发展具有重要影响。本文将深入探讨Facebook的商业策略,以及其对企业发展的丰富影响和潜在机遇。 1. Facebook的商…

功能强大使用简单的截图/贴图工具,PixPin

一、下载链接 PixPin 截图/贴图/长截图/文字识别/标注 | PixPin 截图/贴图/长截图/文字识别/标注 (pixpinapp.com) 二、功能 截图/贴图/长截图/文字识别/标注 三、安装教程 根据提示安装即可: 四、快捷键 1.软件自带快捷键(右击PixPin查看 &#xff09…

微信小程序用户登陆和获取用户信息功能实现

官方文档: https://developers.weixin.qq.com/miniprogram/dev/framework/open-ability/login.html 接口说明: https://developers.weixin.qq.com/miniprogram/dev/OpenApiDoc/user-login/code2Session.html 我们看官方这个图,梳理一下用户…

#微信小程序创建(获取onenet平台数据)

1.IDE:微信开发者工具 2.实验:创建一个小程序(http get获取onenet平台数据) 3.记录: 百度网盘链接:https://pan.baidu.com/s/1eOd-2EnilnhPWoGUMj0fzw 提取码: 2023 (1)新建一个工…

Spring Cloud Gateway核心之Predicate

路由 Predicate 工厂 Spring Cloud Gateway 将路由作为 Spring WebFluxHandlerMapping基础设施的一部分进行匹配。Spring Cloud Gateway 包含许多内置的路由Predicate 工厂。所有这些谓词都匹配 HTTP 请求的不同属性。多个 Route Predicate Factory 可以组合,并通过…

OpenAI 大声朗读出来

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…