Hadoop搭建配置信息

news/2024/5/20 2:57:53 标签: hadoop, hdfs, big data

文章目录

  • 一、etc/hadoop/core-site.xml
  • 二、etc/hadoop/hdfs-site.xml
    • 1、NameNode的配置:
    • 2、DataNode的配置:
  • 三、etc/hadoop/yarn-site.xml
    • 1、ResourceManager 和 NodeManager 的配置:
    • 2、ResourceManager的配置:
    • 3、NodeManager 的配置:
    • 4、History Server的配置(需要移动到其他位置):
  • 四、etc/hadoop/mapred-site.xml
    • 1、MapReduce 应用程序的配置:
    • 2、MapReduce JobHistory Server 的配置:
  • 五、etc/hadoop/yarn-site.xml

hadoopcoresitexml_1">一、etc/hadoop/core-site.xml

参数value描述
fs.defaultFS名称节点 URIhdfs://host:port 主机:端口
io.file.buffer.size131072序列文件中使用的读/写缓冲区的大小。

hadoophdfssitexml_8">二、etc/hadoop/hdfs-site.xml

1、NameNode的配置:

参数value描述
dfs.namenode.name.dir本地文件系统上的路径,其中 NameNode 永久存储命名空间和事务日志。如果这是以逗号分隔的目录列表,则在所有目录中复制名称表,以实现冗余。
dfs.hosts / dfs.hosts.exclude允许/排除的数据节点列表。如有必要,请使用这些文件来控制允许的数据节点列表。
dfs.blocksize268435456HDFS 块大小为 256MB,适用于大型文件系统。
dfs.namenode.handler.count100更多 NameNode 服务器线程来处理来自大量 DataNode 的 RPC。

2、DataNode的配置:

参数value描述
dfs.datanode.data.dirDataNode的本地文件系统上以逗号分隔的路径列表,它应该在其中存储其块。如果这是以逗号分隔的目录列表,则数据将存储在所有命名目录中,通常存储在不同的设备上。

hadoopyarnsitexml_25">三、etc/hadoop/yarn-site.xml

1、ResourceManager 和 NodeManager 的配置:

参数value描述
yarn.acl.enabletrue/false是否启用 ACL?默认为false
yarn.admin.acl管理员 ACLACL 用于在群集上设置管理员。ACL 适用于逗号分隔用户空间逗号分隔组。默认为 * 的特殊值**,**这意味着任何人空间的特殊价值意味着没有人可以进入。
yarn.log-aggregation-enablefalse启用或禁用日志聚合的配置

2、ResourceManager的配置:

参数value描述
yarn.resourcemanager.addressResourceManager主机:端口,供客户端提交作业。host:port(主机:端口)如果已设置,则覆盖
yarn.resourcemanager.scheduler.addressResourceManager host:port,供 ApplicationMasters 与 Scheduler 通信以获取资源。host:port(主机:端口)如果已设置,则覆盖yarn.resourcemanager.hostname 中设置的主机名
yarn.resourcemanager.resource-tracker.addressResourceManager host:nodeManagers 的 port。host:port(主机:端口)如果已设置,则覆盖yarn.resourcemanager.hostname 中设置的主机名
yarn.resourcemanager.admin.addressResourceManager主机:用于管理命令的端口。host:port(主机:端口)如果已设置,则覆盖yarn.resourcemanager.hostname 中设置的主机名
yarn.resourcemanager.webapp.addressResourceManager web-ui host:port.host:port(主机:端口)如果已设置,则覆盖yarn.resourcemanager.hostname 中设置的主机名
yarn.resourcemanager.hostnameResourceManager主机。host可以设置单个主机名来代替设置所有yarn.resourcemanager*地址资源。结果为资源管理器组件生成默认端口。
yarn.resourcemanager.scheduler.classResourceManager调度程序类。CapacityScheduler(推荐),FairScheduler(也推荐)或FifoScheduler。使用完全限定的类名,例如org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler
yarn.scheduler.minimum-allocation-mbResourceManager中分配给每个容器请求的最小内存限制。以 MB 为单位
yarn.scheduler.maximum-allocation-mbResourceManager中分配给每个容器请求的最大内存限制。以 MB 为单位
yarn.resourcemanager.nodes.include-path / yarn.resourcemanager.nodes.exclude-path允许/排除的节点管理器列表。如有必要,请使用这些文件来控制允许的节点管理器列表。

3、NodeManager 的配置:

参数value描述
yarn.nodemanager.resource.memory-mb资源,即给定NodeManager的可用物理内存,以 MB 为单位定义NodeManager上可供正在运行的容器使用的总可用资源
yarn.nodemanager.vmem-pmem-ratio任务的虚拟内存使用率可能超过物理内存的最大比率每个任务的虚拟内存使用率可能会超过其物理内存限制。节点管理器上的任务使用的虚拟内存总量可能会超过其物理内存使用率。
yarn.nodemanager.local-dirs写入中间数据的本地文件系统上以逗号分隔的路径列表。多个路径有助于传播磁盘 I/O。
yarn.nodemanager.log-dirs写入日志的本地文件系统上以逗号分隔的路径列表。多个路径有助于传播磁盘 I/O。
yarn.nodemanager.log.retain-seconds10800在 NodeManager 上保留日志文件的默认时间(以秒为单位) 仅在禁用日志聚合时适用。
yarn.nodemanager.remote-app-log-dirlogsHDFS 目录,应用程序日志在应用程序完成时在其中移动。需要设置适当的权限。仅当启用了日志聚合时才适用。
yarn.nodemanager.remote-app-log-dir-sendixlogs远程日志目录的后缀。日志将聚合到 y a r n . n o d e m a n a g e r . r e m o t e − a p p − l o g − d i r / {yarn.nodemanager.remote-app-log-dir}/ yarn.nodemanager.remoteapplogdir/{user}/${thisParam} 仅当启用了 log-aggregation 时才适用。
yarn.nodemanager.aux-servicesmapreduce_shuffle需要为 Map Reduce 应用程序设置的随机播放服务。
yarn.nodemanager.env-whitelist容器从 NodeManagers 继承的环境属性对于 mapreduce 应用程序,除了默认值之外,还应添加HADOOP_MAPRED_HOME。依赖资源JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME

4、History Server的配置(需要移动到其他位置):

参数value描述
yarn.log-aggregation.retain-seconds-1在删除聚合日志之前,要保留它们多长时间。-1 禁用。请注意,将其设置得太小,您将向名称节点发送垃圾邮件。
yarn.log-aggregation.retain-check-interval-seconds-1检查聚合日志保留期之间的时间。如果设置为 0 或负值,则该值将计算为聚合日志保留时间的十分之一。请注意,将其设置得太小,您将向名称节点发送垃圾邮件。

hadoopmapredsitexml_71">四、etc/hadoop/mapred-site.xml

1、MapReduce 应用程序的配置:

参数value描述
mapreduce.framework.nameyarn执行框架设置为Hadoop YARN。
mapreduce.map.memory.mb1536地图的资源限制更大。
mapreduce.map.java.opts1024M映射的子 jvm 的堆大小更大。
mapreduce.reduce.memory.mb3072更大的资源限制以减少。
mapreduce.reduce.java.opts2560M对于 reduce 的子 jvms,堆大小更大。
mapreduce.task.io.sort.mb512更高的内存限制,同时对数据进行排序以提高效率。
mapreduce.task.io.sort.factor100对文件进行排序时,一次合并了更多流。
mapreduce.reduce.shuffle.parallelcopies50reduce 运行的并行副本数越多,即可从大量地图中获取输出。

2、MapReduce JobHistory Server 的配置:

参数value描述
mapreduce.jobhistory.address地图还原作业历史服务器host:port(主机:端口)默认端口为 10020。
mapreduce.jobhistory.webapp.addressMapReduce的JobHistory Server 网络地址host:port默认端口为 19888。
mapreduce.jobhistory.intermediate-done-dir/mr-history/tmp由 MapReduce 作业写入历史文件的目录。
mapreduce.jobhistory.done-dir/mr-history/done历史记录文件由 MR 作业历史记录服务器管理的目录。

hadoopyarnsitexml_95">五、etc/hadoop/yarn-site.xml

参数value描述
yarn.nodemanager.health-checker.script.path节点运行状况脚本用于检查节点运行状况的脚本。
yarn.nodemanager.health-checker.script.opts节点运行状况脚本选项用于检查节点运行状况的脚本选项。
yarn.nodemanager.health-checker.interval-ms节点运行状况脚本间隔运行运行状况脚本的时间间隔。
yarn.nodemanager.health-checker.script.timeout-ms节点运行状况脚本超时间隔运行状况脚本执行超时。

http://www.niftyadmin.cn/n/1616068.html

相关文章

MapReduce之job配置信息介绍

一.job hadoop中的MapReduce可以使用Java进行MapReduce的逻辑撰写。其中就需要job进行相关配置。job作为MapReduce的配置信息以及启动项直接打包成jar包,hadoop可以运行这个jar包实现mapreduce的功能。本文主要从源码中,将job的配置项信息提取出来&…

依据广度优先的输入字符串 生成二叉树

title: 依据广度优先的输入字符串 生成二叉树 date: 2020-12-26 11:18:34 tags: 二叉树 categories: 数据结构 根据广度优先输入的字符串 生成一颗二叉树说明 这个根据输入的字符串自动生成一个二叉树使用的思想是广搜(BFS)要用到队列生成二叉树举个例子输入 12634^7^^^58^^^^…

循环链表的打印 合并

title: 循环链表的打印 合并 date: 2020-10-02 21:12:27 tags: 打印、合并循环链表 categories: 数据结构 本文中的所有操作均使用 设有尾指针的循环链表完成,目前只写了打印和合并两个操作,后续持续更新~ 看名字都可以知道,使用尾指针的循环…

稀疏矩阵乘法

title: 稀疏矩阵乘法 date: 2020-11-09 19:31:44 tags: 稀疏矩阵运算 categories: 数据结构 在本算法中,两个稀疏矩阵的特性都有用到规定 规定以下变量名称,本文讲述 矩阵A 矩阵B 矩阵C 的运算过程 需要用到的存储结构有: 矩阵A&#xf…

头指针单向链表基本操作

title: 头指针单向链表基本操作 date: 2020-10-04 16:47:34 tags: 单链表基本操作 categories: 数据结构 感觉每次自己提前写的东西都和老师讲的书上内容不太一样 当然大多数是老师讲的更正规一些,毕竟我只是一个会了链表本质就瞎玩的人 属于自己琢磨,自…

外壳生意那些事儿:苹果iPhone 4S坑爹啊!

10月4日,iPhone 4S发布。第二天,山寨厂商机体抱头痛哭,尼玛我都做出了iphone5,坑爹啊! 或许看了下文山寨厂商们会平衡一点——苹果坑的不仅仅是山寨厂商的爹。美国一家专门生产手机保护壳、叫做Hard Candy Cases的公司…

10月4日,iPhone 4S发布。第二天,山寨厂商机体抱头痛哭,尼玛我都做出了iphone5,坑爹啊!

当我在投资一家新企业的时候,都会习惯性地发一封邮件给公司的CEO,告诉他们如何与董事会相处。过去的24年中,我曾任一些软件公司及一些创业公司的股东。以下是凭借个人经验所提出的一些建议,希望能对CEO及总监们有所帮助。 1. 制定…

为什么移动互联网行业需要一个新的引领者?

虽然现在苹果和Google两家企业极大的影响着整个移动互联网行业的发展方向,但是,随着Facebook等企业加入竞争,现在移动互联网行业的发展局面也随之变得混乱,而在这情况下为什么还需要一个新的引领者,则是今天要讨论的问…