hadoop解决数据倾斜的方法

hadoop解决数据倾斜的方法

news/2024/5/20 5:09:42 标签: hadoop, 大数据, hdfs

分析&回答

1，如果预聚合不影响最终结果，可以使用conbine，提前对数据聚合，减少数据量。使用combinner合并,combinner是在map阶段,reduce之前的一个中间阶段,在这个阶段可以选择性的把大量的相同key数据先进行一个合并,可以看做是local reduce,然后再交给reduce来处理。

2，使用2次mr的方式。第一次mr，在map输出是给key加上一个前缀，则可以把相同的key分配到不同的reduce聚合，可以实现同一个key数据量大的问题；第二次mr对把第一次mr输出的数据的key去掉前缀，在聚合。

3，增加reduce个数，提示并行度。最容易造成的结果就是大量相同key被partition到一个分区,从而一个reduce执行了大量的工作,而如果我们增加了reduce的个数,这种情况相对来说会减轻很多,毕竟计算的节点多了,就算工作量还是不均匀的,那也要小很多。

4，自定义分区，自定义散列函数，把数据均匀分配到不同reduce。

喵呜面试助手：一站式解决面试问题，你可以搜索微信小程序 [喵呜面试助手] 或关注 [喵呜刷题] -> 面试助手 免费刷题。如有好的面试知识或技巧期待您的共享！

http://www.niftyadmin.cn/n/4989143.html

相关文章

xml转化为txt数据的脚本，为yolo提供训练

xml转化为txt数据的脚本，为yolo提供训练

这里写自定义目录标题 xml转化为txt数据的脚本 xml转化为txt数据的脚本代码如下： import xml.etree.ElementTree as ET import os, cv2 import numpy as np from os import listdir from os.path import joinclasses []def convert(size, box):dw 1. / (size[0…

阅读更多...

ClickHouse集群搭建及ODBC配置

ClickHouse集群搭建及ODBC配置

1 搭建环境 192.168.122.100 BCEuler01 192.168.122.101 BCEuler02 192.168.122.102 BCEuler03 1.1 关闭防火墙 # systemctl disable firewalld # systemctl stop firewalld 1.2 关闭selinux # /etc/selinux/config SELINUXdisabled 1.3 设置时间同步(chrony) 将BCEuler01设…

阅读更多...

ZooKeeper基础命令和Java客户端操作

ZooKeeper基础命令和Java客户端操作

1、zkCli的常用命令操作 （1）Help （2）ls 使用 ls 命令来查看当前znode中所包含的内容 （3）ls2查看当前节点数据并能看到更新次数等数据 （4）stat查看节点状态 （5&#xf…

阅读更多...

2023年8月第4周大模型荟萃

2023年8月第4周大模型荟萃

2023年8月第4周大模型荟萃 2023.8.31版权声明：本文为博主chszs的原创文章，未经博主允许不得转载。 1、美国法官最新裁定：纯AI生成的艺术作品不受版权保护美国华盛顿一家法院近日裁定，根据美国政府的法律，在没有任何…

阅读更多...

电脑入门：路由器测试技术介绍及类型和方法

电脑入门：路由器测试技术介绍及类型和方法

路由器测试技术介绍及类型和方法　　一、测试的目的和内容　　路由器是通过转发数据包来实现网络互连的设备，可以支持多种协议（例如TCP/IP，SPX/IPX，AppleTalk），可以在多个层次上转发数据包（例如数据链路层、网络层、应用层）…

阅读更多...

18.Oauth2-微服务认证

18.Oauth2-微服务认证

1.Oauth2 OAuth 2.0授权框架支持第三方支持访问有限的HTTP服务，通过在资源所有者和HTTP服务之间进行一个批准交互来代表资源者去访问这些资源，或者通过允许第三方应用程序以自己的名义获取访问权限。为了方便理解，可以想象OAuth2.0就是在用…

阅读更多...

spark支持深度学习批量推理

spark支持深度学习批量推理

背景在数据量较大的业务场景中，spark在数据处理、传统机器学习训练、深度学习相关业务，能取得较明显的效率提升。本篇围绕spark大数据背景下的推理，介绍一些优雅的使用方式。 spark适用场景大数据量自定义方法处理、类sql处理传统机器…

阅读更多...

一种借助MYSQL递归CTE生成所有的组合情况的实现方法

一种借助MYSQL递归CTE生成所有的组合情况的实现方法

需求说明有如下表和数据： Nname1户口2查询机构数过多3危险驾驶4多头用信需要输出name里的所有组合情况，即单个值，两两组合，三个组合、四个组合。结果为2的n次方-1中情况，这里是15。预期结果为： Com…

阅读更多...

最新文章