Hadoop概论

news/2024/5/20 4:51:44 标签: hadoop, 大数据, hdfs

一、概述

  1. 广义:Hadoop生态圈;
  2. 狭义:Apache基金会开发的分布式系统开源框架,核心组件包括:
    1. HDFS-分布式文件系统
    2. MAPREDUCE-分布式运算编程框架
    3. YARN-作业调度和集群资源管理框架
  3. 优点 & 特性
    1. 扩容能力
    2. 成本低
    3. 高效率
    4. 可靠性
      • 大数据的“5V”特征:Volume(大容量)、Velocity(高速率)、Variety(多样性)、Veracity(真实性)、Value(价值密度低)

二、Hadoop集群的三种模式

  1. 本地模式
  2. 完全分布式模式

三、Hadoop集群搭建(文件配置-略)

  1. 虚拟机准备
    1. 虚拟机的三种网络模式
             VMware Workstation安装好之后,可以在宿主机的网络配置中看到多出来的两个网络连接,分别是VMnet1和VMnet8,其中VMnet1用于仅主机模式,VMnet8用于Nat模式。(还有一个VMnet0,用于桥接模式,可以在VMware Workstation 的虚拟网络编辑器virtual network editor中看到)
             这两个模式默认提供DHCP服务(VMnet0默认不提供)。DHCP服务即动态主机设置协议,是局域网中的一种协议,能够快速地自动为我们的PC分配网络IP地址,以及为设备配置正确的子网掩码、默认网关和DNS服务器信息,为我们节省网络配置的时间,防止外来PC上网,同时避免IP重复等错误。
      1. 仅主机模式(Host-Only)-VMnet1
        * 宿主机和所有的虚拟机共同组成一个“私人的局域网络”,彼此之间可以相互访问,但与外网是相互独立的,无法访问外网。
      2. 网络地址转换模式(NAT)-VMnet8
        * 重点在于虚拟系统通过宿主机的网络访问公网,宿主机同时参与现有的网络和新建的内部虚拟局域网,虚拟系统借助于NAT的功能,使用宿主机的IP地址访问外网,从外网的角度,只能察觉到宿主机,是完全看不到虚拟网络系统的。
      3. 桥接模式(Bridged)-VMnet0
        * 此模式下,VMware虚拟出来的操作系统就像是局域网中一台独立的主机(需要手工配置IP、子网掩码等),相当于宿主机和虚拟机共享了同一个交换机(这个交换机当然也是虚拟出来的)
    2. 网络配置
      1. 在虚拟机的/etc/sysconfig/network-scripts/ifcfg-ethxx文件中修改网络配置参数
        DEVICE是网卡名称
        
        BOOTPROTO是获取的ip地址类型,static和none为静态地址,dhcp为动态获取ip地址
        
        HWADDR是MAC地址
        
        MTU是最大传输单位
        
        NM_CONTROLLED是否启用NetworkManager图形界面配置工具
        
        ONBOOT设置网卡是否在Linux系统启动时激活,这一项一般都要设为yes
        
        IPADDR是本机ip地址
        
        NETMASK是子网掩码
        
        GATEWAY是设置网关的
        
        DNS1是首选DNS服务器
        
        DNS2时辅助DNS服务器
        
        还有一些几个参数一般情况下不用配置:
        
        BROADCAST是广播地址
        
        原文链接:https://blog.csdn.net/huapenguag/article/details/78283249

  2. xsync分发脚本编写
    #!/bin/bash
    
    #1. 判断参数个数
    if [ $# -lt 1 ]
    then
        echo Not Enough Arguement!
        exit;
    fi
    
    #2. 遍历集群所有机器
    for host in Hadoop101 Hadoop102 Hadoop103
    do
        echo ====================  $host  ====================
        #3. 遍历所有目录,挨个发送,$@ 表示把参数以$1、$2、$3、$4...形式输出,并可以当作数组使用
         
        for file in $@
        do
            #4. 判断文件是否存在
            if [ -e $file ]
                then
                    #5. 获取父目录
                    pdir=$(cd -P $(dirname $file); pwd)
    
                    #6. 获取当前文件的名称
                    fname=$(basename $file)
                    ssh $host "mkdir -p $pdir"
                    rsync -av $pdir/$fname $host:$pdir
                else
                    echo $file does not exists!
            fi
        done
    done
    
  3. xcall ssh指令跳转脚本编写
    #!/bin/sh
    pcount=$#
    if((pcount==0));then
            echo no args...;
            exit;
    fi
    
    for((host=101; host<=103; host++)); 
    do
            echo ==================Hadoop$host==================
            ssh Hadoop$host $@
    done
    
  4. 无密登录配置
  5. 历史服务器配置
  6. 日志聚集配置
  7. 常用端口说明

    端口名称

    Hadoop2.x

    Hadoop3.x

    NameNode内部通信端口

    8020 / 9000

    8020 / 9000/9820

    NameNode HTTP UI

    50070

    9870

    MapReduce查看执行任务端口

    8088

    8088

    历史服务器通信端口

    19888

    19888

    * 如:hadoop101:9870
  8. 时间同步
  9. ......

四、Hadoop集群指令&API使用

  1. 启动关闭
  2. 上传下载
  3. 见文章《关于HDFS》

http://www.niftyadmin.cn/n/59227.html

相关文章

贝叶斯分类器

分类算法用来判断给定数据项所属的类别&#xff0c;即种类或类型。比如&#xff0c;可以根据某些特征来分辨一部电影属于哪个流派&#xff0c;等等。这样&#xff0c;流派就是我们要预测的类别。第10章“预测性分析与机器学习”还会对机器学习做进一步介绍。此刻&#xff0c;我…

微信小程序 java家校通Springboot中小学家校联系电子作业系统

小程序前端框架&#xff1a;uniapp 小程序运行软件&#xff1a;微信开发者 后端技术:javaSsm(SpringSpringMVCMyBatis)vue.js 后端开发环境:idea/eclipse 数据库:mysql 通过对各种资料的收集&#xff0c;了解到“校讯通”是联系社会的窗口&#xff0c;是实现家校联系工作和学校…

C++轻量级RPC库RpcCore

C轻量级的RPC库&#xff0c;可用于任何项目中&#xff0c;甚至单片机。 方便平台直接相互进行功能调用。 基于asio的实现 asio_net 也可用在esp32适用于ESP32/ESP8266的实现 esp_rpc 目前也有一些轻量的库&#xff0c;参考了protobuf&#xff08;或者依赖它&#xff09;&…

(学习笔记)Specification and Verification 验证与规范

写在前面, ppt鸟语一堆实在看得我头痛… 离散数学高级版 文章目录命题逻辑句法自然推理 命题逻辑证明理论语义谓词逻辑及证明理论从命题逻辑到谓词逻辑谓词逻辑形式语言TermsFormulas变量Substitution谓词逻辑的证明理论谓词逻辑语义Modelslook-up tableThe Satisfaction Rela…

学习英语的诀窍

学习英语有很多方法&#xff0c;以下是一些诀窍&#xff1a; 多读、多写&#xff1a;多读英语文章、诗歌、小说等&#xff0c;多写日记、邮件、作文等。 关注语音语法&#xff1a;注意发音&#xff0c;练习语法&#xff0c;提高语言表达能力。 观察原版影视剧&#xff1a;观察…

Python 高级编程之网络编程 Socket(六)

文章目录一、概述二、Python socket 模块1&#xff09;Socket 类型1、创建 TCP Socket2、创建 UDP Socket2&#xff09;Socket 函数1、服务端socket函数2、客户端socket函数3、公共socket函数三、单工&#xff0c;半双工以及全双工通信方式的区别四、单工&#xff0c;半双工以及…

【ZooKeeper】zookeeper源码9-ZooKeeper读写流程源码分析

源码项目zookeeper-3.6.3&#xff1a;核心工作流程ZooKeeper选举和状态同步结束之后的服务启动ZooKeeper选举和状态同步结束之后的服务启动 在Leader的lead()方法的最后&#xff0c;即Leader完成了和集群过半Follower的同步之后&#xff0c;就会调用startZkServer()来启动必要…

[golang gin框架] 1.Gin环境搭建,程序的热加载,路由GET,POST,PUT,DELETE

一.Gin 介绍Gin 是一个 Go (Golang) 编写的轻量级 http web 框架&#xff0c;运行速度非常快&#xff0c;如果你是性能和高效的追求者&#xff0c;推荐你使用 Gin 框架.Gin 最擅长的就是 Api 接口的高并发&#xff0c;如果项目的规模不大&#xff0c;业务相对简单&#xff0c;这…