【大数据之Hive】十二、Hive-HQL查询之分组、join、排序

news/2024/5/20 4:29:29 标签: hive, 大数据, hdfs, sql

一、分组

1 group by 语句

  group by 通常和聚合函数一起使用,按照一个或多个列的结果进行分组,任何对每个租执行聚合操作。
  用group by时,select中只能用在group by中的字段和聚合函数。

--计算emp每个部门中每个岗位的最高薪水:
select t.deptnum,t.job,max(t.sal) max_sal from emp t group by t.deptnum,t.job;

hive sql执行过程:
在这里插入图片描述

2 having语句

having对分组聚合后的组进行过滤,针对一组数据。

having和where不同点:
(1)where后不能用分组聚合函数,having可以。
(2)having只用于group by 分组统计语句。

如:

--求每个部门的平均工资:
select deptnum,avg(sal) avg_sal from emp group by deptnum;

--求部门平均工资大于2000的部门:
select deptnum,avg(sal) avg_sal from emp group by deptnum having avg_sal > 2000;

HQL执行过程:
在这里插入图片描述

二、join语句

1 等值join

Hive支持通常的sql join语句,但是只支持等值连接,Hive2.x之前不支持非等值连接。

--根据员工表和部门表中的相等的部门号,查询员工编号、员工名称和部门名称
select e.empnum,e.ename,d.dname from emp e join dept d on d.deptnum=e.deptnum;

HQL执行过程:
在这里插入图片描述

2 表的别名

优点:别名能简化查询,可以区分字段来源。

select e.*,d.* from emp e join dept d on d.deptnum=e.deptnum;

3 内连接

只有进行连接的两个表都存在,与连接条件匹配的数据才会保留下来。

select e.empnum,e.ename,d.dname from emp e join dept d on d.deptnum=e.deptnum;

4 左外连接

返回join操作符左边表中符合where子句的所有记录。

select e.empnum,e.ename,d.deptnum from emp e left join dept d on e.deptnum=d.deptnum;

5 右外连接

返回join操作符右边表中符合where子句的所有记录。

select e.empnum,e.name,d.deptnum from emp e rigth join dept d on e.deptnum=d.deptnum;

6 满外连接

返回所有表中符合where语句条件的所有记录。如果任一表的指定字段没有符合条件的值就用null代替。

select e.empnum,e.ename,d.deptnum from emp e full join dept d on e.deptnum=d.deptnum;

7 内连接,左外、右外、满外连接的区别

  满外连接(全外连接)是左外连接和右外连接的结合。

数据集合上的区别:
(1)内连接:A join B,是A和B的公共数据集。
(2)左外连接:A left join B,是A和B的公共数据集,且连接A除公共数据集以外的所有数据。
(3)右外连接:A rigth join B,是A和B的公共数据集,且连接B除公共数据集以外的所有数据。
(4)满外连接:A full join B,是A和B的公共数据集,且连接A、B除公共数据集以外的所有数据。

计算方法上的区别:
(1)内连接:A join B = C
(2)左外连接:A left join B = C + A1
(3)右外连接:A rigth join B = C +B1
(4)满外连接:A full join B = A1 + C +B1
在这里插入图片描述

8 多表连接

连接n个表至少要n-1个条件。

在/opt/module/hive/datas/下创建一个location.txt文件

vim location.txt

#添加以下内容
1700 北京
1800 上海
1900 深圳
--创建表
create table location(
    locid int,
    locname string
)
row format delimited fields terminated by '\t';

--从本地导入数据
load data local inpath '/opt/module/hive/datas/location.txt' into table location;

--多表连接查询
select e.ename,d.dname,l.locname from emp e 
join dept d on e.deptnum=d.deptnum 
join location l on d.locid=l.locid;

  Hive会对每一个join连接对象启动一个MR任务。Hive执行顺序是从左到右的,上述例子首先启动一个MR任务对表e和表d连接,再启动一个MR任务连接第一个MR的输出和表l。
在这里插入图片描述

9 笛卡尔集

  A(n)表的所有行与B(m)表的所有行关联在一起,生成一个n*m行的表。

笛卡尔集产生条件:
(1)省略连接条件。
(2)连接条件无效。
(3)所有表中的所有行相互连接。

select empnum,dname from emp,dept;

在这里插入图片描述
HQL执行过程:
在这里插入图片描述

10 联合(union & union all)

  union和union all都是上下拼接sql的结果,而join是左右关联。union去重,union all不去重。

union和union all上下拼接要求:
(1)两个sql结果列的个数必须相同。
(2)两个sql结果上下所对应列的类型必须一致。
(3)必须连接两个select查询语句,结果的字段名以第一条select语句的字段名来显示。

--将员工表部门30的员工信息和部门40的员工信息用union拼接显示:
select * from emp where deptnum=30 union select * from emp where deptnum=40;

在这里插入图片描述

三、排序

1 全局排序(order by)

  全局排序order by只有一个reduce,且 order by 放在select句子末尾。order by常与limit连用,由于limit,在Map端进行order by时只需要传限制的部分数据给Reduce端,减小了reduce的压力。
(1)asc(默认升序)
(2)desc(降序)

--查询员工信息按工资升序排序:
select * from emp order by sal;

----查询员工信息按工资降序排序:
select * fromm emp order by sal desc;

--按列别名排序:
select ename,sal * 2 twosal from emp order by twosal;

--按部门和工资升序排序(多个列排序):
select ename,deptnum,sal from emp order by deptnum,sal;

HQL执行过程:
在这里插入图片描述
order by 缺点:对于大规模数据集效率非常低。
解决:多数情况下不需要全局排序,可以用sort by进行内部排序。

2 每个reduce内部排序(sort by)

  sort by为每一个reduce产生一个排序文件,每个reduce内部进行排序(是Map到Reduce的排序字段)。

--用参数声明方式设置reduce个数:
hive>set mapreduce.job.reduce=3;

--用参数声明方式查看reduce个数:
hive>set mapreduce.job.reduce;

--根据部门编号降序查看员工信息:
select * from emp sort by deptnum desc;

--按部门编号对员工信息降序排序,并把查询结果导入到文件中:
insert overwrite local directory '/opt/module/hive/datas/sortby-result'
select * from emp sort by deptnum desc;

HQL执行过程:
在这里插入图片描述

3 分区(distribute by)

  分区 distribute by类似于MR中的partition(自定义分区),用于控制特定行到某个reducer,结合sort by 使用,通常是为了进行后续的聚集操作。

distribute by 分区规则:
(1)分区字段的hash码与reduce的个数进行取模运算,值相同的在同一个分区。
(2)distribute by 在 sort by 语句之前。

  对于distribute by进行测试,一定要分配多reduce进行处理,否则无法看到distribute by 的效果,测试完之后将mapreduce.job.reduces置-1,否则分区或分桶load数据运行MR任务会出错。

--用参数声明方式设置reduce个数:
hive>set mapreduce.job.reduce=3;

--先按照部门编号进行分区,再按员工薪资降序排序:
insert overwrite local directory '/opt/module/hive/datas/distribute-result'
select * from emp distribute by deptnum sort by sal desc;

hive>set mapreduce.job.reduce=-1;

HQL执行过程:
在这里插入图片描述

4 分区排序(cluster by)

  当 distribute by 和 sort by 字段相同时,可以使用 cluster by 方式 cluster by 同时具有 distribute by 和 sort by 功能,但 cluster by 排序只能升序排序,不能指定排序规则为asc或desc。

--查询员工信息按部门号分区且排序:
--分区时可能将部门2030号分在一个区
select * from emp distribute by deptnum sort by deptnum;

--等价于:
select * from emp cluster by deptnum;

HQL执行过程:
在这里插入图片描述


http://www.niftyadmin.cn/n/437961.html

相关文章

【Linux之Shell脚本实战】检查Mysql数据库状态的shell脚本

【Linux之Shell脚本实战】检查Mysql数据库状态的shell脚本 一、脚本要求二、检查本地环境2.1 本地环境规划2.2 检查本地操作操作2.3 检查系统内核版本三、配置脚本注释模板3.1 编辑 .vimrc 文件3.2 检查模板生效情况四、编辑测试脚本4.1 编写mysql_check.sh脚本4.2 编写mysql_c…

浅谈微前端

本文呢是我梳理的一个扫盲文,由于最近团队准备使用微前端对项目进行改造,所以我呢就先浅了解一下: 微前端到底是什么? 为什么要使用微前端? 都有哪些微前端方案? 微前端有什么不好的地方吗? 通过…

圆的基本性质

如何确定一个圆? 两个点: 无法确定一个圆,因为只要到这两个点距离相等的点都可以作为圆心(在两个点连线的垂直平分线上),因此可以确定无数个圆 三个点(且这三个点不能在同一个直线上&#xf…

【Linux】基础IO——文件描述符:缓冲区的理解

上个月学校考试,进行课程复习,一直没有更新博客,现考试结束,继续保持更新,欢迎大家关注! 目录 1 模仿C库自主封装简单的文件接口2 对缓冲区的理解2.1 数据刷新到磁盘的过程分析2.2 如何强制刷新内核 1 模仿…

Linux开机自动挂载文件系统的几种方式

一. 前言 在Digitalocean上,给主机添加硬盘时,为了免去分区、格式化、挂载等麻烦,可以选择让运营商帮忙自动完成以上操作。 查看文档可知,运营商在添加硬盘时,在挂载阶段自动执行了以下脚本: 1). 创建挂载…

设计模式(十九):行为型之中介者模式

设计模式系列文章 设计模式(一):创建型之单例模式 设计模式(二、三):创建型之工厂方法和抽象工厂模式 设计模式(四):创建型之原型模式 设计模式(五):创建型之建造者模式 设计模式(六):结构型之代理模式 设计模式…

软件测试什么样的技术栈才能进入大厂

我们知道,能在一线大厂工作是大多数人的目标,不仅薪酬高,技能提升快,而且能得到公司影响力背书,将来就算跳槽也能带来光环加持。 最近疫情的影响,网上也爆出了一些裁员新闻,可以说这个疫情确实…

【Java高级语法】(三)泛型:关于泛型最全面的讲解来了~

Java高级语法详解之泛型 :one: 概念:two: 优势:three: 使用3.1 泛型类3.2 泛型接口3.3 泛型方法 :four: 通配符(Wildcards)4.1 无界通配符(Unbounded Wildcard)4.2 上限通配符(Upper Bounded Wildcard)4.3 …