Hive优化笔记（2 - 数据倾斜）

一基本概念

简单来说数据倾斜就是数据的key 的分化严重不均，造成一部分数据很多，一部分数据很少。默认情况下， Map 阶段同一 Key 数据分发给一个 reduce，当一个 key 数据过大时，就发生倾斜了

数据倾斜一般有两种情况：
变量值很少： 单个变量值的占比极大，常见的字段如性别、学历、年龄等
变量值很多： 单个变量值的占比极小，常见的字段如收入、订单金额之类的

其在reduce的表现有二：① 任务进度长时间维持在99%，只有少量reduce子任务未完成。这是因为其处理的数据量和其他reduce差异过大；② 单一reduce的时长与平均时长差异过大

二造成数据倾斜的常见操作

关键词	情形	后果
Join	其中一个表较小，但是key集中	分发到某一个或几个Reduce上的数据远高于平均值
Join	大表与大表，但是分桶的判断字段0值或空值过多	这些空值都由一个reduce处理，非常慢
group by	group by 维度过小，某值的数量过多	处理某值的reduce非常耗时
Count Distinct	某特殊值过多	处理此特殊值的reduce非常耗时

三优化方案

1、参数调节

sql">-- Map 端部分聚合，相当于Combiner
-- 默认就是true
hive.map.aggr=true

-- 负载均衡,默认是false
hive.groupby.skewindata=true

有数据倾斜的时候进行负载均衡，当选项设定为 true，生成的查询计划会有两个 MR Job。第一个 MR Job 中，Map 的输出结果集合会随机分布到 Reduce 中，每个 Reduce 做部分聚合操作，并输出结果，这样处理的结果是相同的 Group By Key 有可能被分发到不同的 Reduce 中，从而达到负载均衡的目的；第二个 MR Job 再根据预处理的数据结果按照 Group By Key 分布到 Reduce 中（这个过程可以保证相同的 Group By Key 被分布到同一个 Reduce 中），最后完成最终的聚合操作

2、SQL语句调节

2.1 group by替换distinct

数据量大的情况下，由于 count(distinct) 操作需要用一个Reduce job来完成，这一个 Reduce 需要处理的数据量太大，就会导致整个 Job 很难完成，这时可以用group by来改写

但，当数据集很小或者key的倾斜比较明显时，group by还可能会比distinct慢。这是因为group by写会启动两个MR job（单纯distinct只会启动一个）

2.2 大小表Join（MapJoin）

在对大表和一个或多个小表执行Join操作时，MapJoin会将小表全部加载到内存中，在Map阶段执行表连接，而非等到Reduce阶段才执行表连接，这样可以缩短大量数据传输时间，提升系统资源利用率，从而起到优化作业的作用

新版 hive默认对大小表 Join进行了优化，小表放在左边和右边没有区别。同时默认开启了MapJoin

sql">-- 大表小表的阈值设置（默认 25M 以下认为是小表）
set hive.mapjoin.smalltable.filesize = 25000000

2.3 cluster by替换order by

order by：对全部数据进行全局排序，并且只会启动一个reducer干活
sort by：是局部排序。会根据数据量的大小启动一到多个reducer来干活，并且，它会在进入reduce之前为每个reducer都产生一个排序文件。这样的好处是提高了全局排序的效率
distribute by：控制map结果的分发，它会将具有相同字段的map输出分发到一个reduce节点上做处理
cluster by：相当于 distribute by 和sort by 的结合，默认只能是升序

如下两种写法查询结果相同

sql">-- cluster by
select * from store cluster by myid;
-- distribute by,sort by
select * from store distribute by myid sort by myid asc;

https://blog.csdn.net/qq_40795214/article/details/82190827

2.4 空KEY过滤（这里的空key指代大量重复key值）

其使用条件是1：非inner join；2：不需要字段null

sql">select n.* from nullidtable n full join bigtable o on
nvl(n.id,rand()) = o.id; --给null赋值随机数

2.5 空key转换（这里的空key指代大量重复key值）

有时虽然某个 key 为空对应的数据很多，但是相应的数据不是异常数据，必须要包含在join 的结果中，此时我们可以表 a 中 key 为空的字段赋一个随机的值，使得数据随机均匀地分不到不同的 reducer 上。例如：

sql">-- NVL（表达式1，表达式2）
-- 如果表达式1为空值，NVL返回值为表达式2的值，否则返回表达式1的值。 
select a.* from table_a a full join table_b b on
nvl(a.id,rand()) = b.id;

2.6 单独处理倾斜key

一般来讲倾斜的key都很少，我们可以对其打上一个较小的随机数前缀（比如0~9），先进行一次运算，之后再恢复 key 进行最终聚合

2.7 数据类型转换

主要出现在相同业务含义的列发生过逻辑上的变化时。

举个例子，假如有一旧一新两张日历记录表，旧表的记录类型字段是(event_type int)，新表的是(event_type string)。为了兼容旧版记录，新表的event_type也会以字符串形式存储旧版的值，比如'17'。当这两张表join时，经常要耗费很长时间。其原因就是如果不转换类型，计算key的hash值时默认是以int型做的，这就导致所有“真正的”string型key都分配到一个reducer上。所以要注意类型转换