大数据周会-本周学习内容总结07

news/2024/5/20 4:03:10 标签: 学习, 大数据, hadoop, hdfs, MapReduce

目录

hadoop%E3%80%91-toc" style="margin-left:0px;">01【hadoop

1.1【编写集群分发脚本xsync】

1.2【集群部署规划】

1.3【Hadoop集群启停脚本】

02【HDFS】

2.1【HDFS的API操作】

MapReduce%E3%80%91-toc" style="margin-left:0px;">03【MapReduce

3.1【P077- WordCount案例】

3.2【P097-自定义分区案例】

历史总结


01【hadoop

1.1【编写集群分发脚本xsync】

1)scp(secure copy)安全拷贝

scp可以实现服务器与服务器之间的数据拷贝(from server1 to server2)。

2)rsync远程同步工具

rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。

3)xsync集群分发脚本

#!/bin/bash

#1. 判断参数个数
if [ $# -lt 1 ]
then
    echo Not Enough Arguement!
    exit;
fi

#2. 遍历集群所有机器
for host in hadoop102 hadoop103 hadoop104
do
    echo ====================  $host  ====================
    #3. 遍历所有目录,挨个发送

    for file in $@
    do
        #4. 判断文件是否存在
        if [ -e $file ]
            then
                #5. 获取父目录
                pdir=$(cd -P $(dirname $file); pwd)

                #6. 获取当前文件的名称
                fname=$(basename $file)
                ssh $host "mkdir -p $pdir"
                rsync -av $pdir/$fname $host:$pdir
            else
                echo $file does not exists!
        fi
    done
done

[atguigu@hadoop102 .ssh]$ ssh-copy-id hadoop102

[atguigu@hadoop102 .ssh]$ ssh-copy-id hadoop103

[atguigu@hadoop102 .ssh]$ ssh-copy-id hadoop104

1.2【集群部署规划】

注意:

  • NameNode和SecondaryNameNode不要安装在同一台服务器
  • ResourceManager也很消耗内存,不要和NameNode、SecondaryNameNode配置在同一台机器上。

hadoop102

hadoop103

hadoop104

HDFS

NameNode

DataNode

DataNode

SecondaryNameNode

DataNode

YARN

NodeManager

ResourceManager

NodeManager

NodeManager

core-site.xmlhdfs-site.xml、yarn-site.xml、mapred-site.xml四个配置文件存放在$HADOOP_HOME/etc/hadoop这个路径上,用户可以根据项目需求重新进行修改配置。

1.3【Hadoop集群启停脚本】

1)Hadoop集群启停脚本(包含HDFS,Yarn,Historyserver):myhadoop.sh

#!/bin/bash

if [ $# -lt 1 ]
then
    echo "No Args Input..."
    exit ;
fi

case $1 in
"start")
        echo " =================== 启动 hadoop集群 ==================="

        echo " --------------- 启动 hdfs ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/start-dfs.sh"
        echo " --------------- 启动 yarn ---------------"
        ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/start-yarn.sh"
        echo " --------------- 启动 historyserver ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon start historyserver"
;;
"stop")
        echo " =================== 关闭 hadoop集群 ==================="

        echo " --------------- 关闭 historyserver ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon stop historyserver"
        echo " --------------- 关闭 yarn ---------------"
        ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/stop-yarn.sh"
        echo " --------------- 关闭 hdfs ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/stop-dfs.sh"
;;
*)
    echo "Input Args Error..."
;;
esac

2)查看三台服务器Java进程脚本:jpsall

#!/bin/bash

for host in hadoop102 hadoop103 hadoop104
do
        echo =============== $host ===============
        ssh $host jps 
done

02【HDFS】

2.1【HDFS的API操作】

练习内容:

  1. HDFS文件上传(测试参数优先级)
  2. HDFS文件下载
  3. HDFS文件更名和移动
  4. HDFS删除文件和目录
  5. HDFS文件详情查看
  6. HDFS文件和文件夹判断

MapReduce%E3%80%91" style="margin-left:0;text-align:justify;">03【MapReduce

3.1【P077- WordCount案例】

3.2【P097-自定义分区案例】

历史总结

高考项目 医疗项目
存储2泽卢、调度lnz、计算2

MySQL同步到es集群,动态更新、数据同步、集群
MySQL和es集群同步数据库

大数据平台组件 本地搭建

spark 


scala        
面试手册  八股文

采集   maxwell
datax
flume
zookepeer 
hdfs  hadoop三大组件之一
hive  hbase 
hudi

doris 

mr spark  flink

青城在线


800  1800  2000


no搭框架,这是运维搞的事情。

研究具体应用和底层原理代码。
练手:简易rpc框架。

原方案:flume采集日志文件传到kafka,尚硅谷数仓项目。

现方案:Linux虚拟机rocketMQ监控logstash数据日志。


logstash -f /opt/module/logstash-8.5.1/config/test/mysql01.conf

logstash -f ../config/gaokao/mysql.conf


详细列出所学内容,xxx框架。


doris、flink、spark streaming


jieba分词器


汇报人:xxx、项目组:大数据

linux集成es

canal

P25 25、基于canal数据同步的介绍 01:46
https://www.bilibili.com/video/BV1Jq4y1w7Bc?p=25


https://help.aliyun.com/document_detail/307064.html
https://github.com/alibaba/canal
https://github.com/alibaba/canal/wiki/Canal-Kafka-RocketMQ-QuickStart


调研
技术方案:高考大数据的存储与计算方案
高考大数据资产


2、数据存储
elk接入实时日志
1、大学专业等导入es
2、mysql-es 全量-增量,更新机制并实现
3、数据检索


1、数据治理
1.1、招生计划治理,spark实现,存es
1.2、高考数据实时日志计算统计指标梳理并统计

kafka日志、kafka可视化!


极光:https://www.jiguang.cn/
https://cgsss.com/


http://www.niftyadmin.cn/n/208693.html

相关文章

每日一道leetcode:8. 字符串转换整数 (atoi)

1. 题目(中等) 题目链接 请你来实现一个 myAtoi(string s) 函数,使其能将字符串转换成一个 32 位有符号整数(类似 C/C 中的 atoi 函数)。 函数 myAtoi(string s) 的算法如下: 读入字符串并丢弃无用的前导…

Scrapy-核心架构

在之前的文章中,我们已经学习了如何使用Scrapy框架来编写爬虫项目,那么具体Scrapy框架中底层是如何架构的呢?Scrapy主要拥有哪些组件,爬虫具体的实现过程又是怎么样的呢? 为了更深入的了解Scrapy的相关只是&#xff0…

根据excel的列下每个名称出现了几次,计算对应数量

import pandas as pd# 读取 Excel 文件 df pd.read_excel(your_excel_file.xlsx)# 计算每个智库名称出现的次数,并形成对应名称的报告数量 result df[think_tank_name].value_counts()# 创建新的数据框 new_df pd.DataFrame({智库名称: result.index.tolist(),报…

【论文阅读--WSOL】Spatial-Aware Token for Weakly Supervised Object Localization

文章目录方法实验Limitation论文:https://arxiv.org/abs/2303.10438代码:https://github.com/wpy1999/SAT/blob/main/Model/SAT.py方法 这篇文章的方法应该属于FAM这一类。 额外添加的一个spatial token,从第10-12层开始,利用其得…

漏洞挖掘-漏洞扫描

一、工具 1.针对某种漏洞 (1)sqlmap python sqlmap.py -u "url" --dbs 枚举所有数据库 python sqlmap.py -u "url" --current -db 当前数据库 python sqlmap.py -u "url" -D db_name --tables …

苹果Apple Watch可监测用户手势,Find My技术成为智能穿戴新增长点

根据美国商标和专利局(USPTO)公示的清单,苹果近日获得了一项关于 Apple Watch 的手表专利。该专利描述的 Apple Watch 可以监测和响应微小的手指移动以及用户手势。 该专利名称为“适用于手势识别的电极”,编号为 US 2023010522…

西北乱跑娃 -- 全栈开发新手必看客户端与服务的关系

一、问题解析 对于一个全栈新手来说,熟悉全栈开发生命周期管理是非常重要的。没有对全栈开发生命周期管理的了解,会导致很难快速上岗。下面是一些有助于您理解全栈开发生命周期管理的提示。 首先,全栈开发生命周期管理是指从项目的规划、设…

MongoDB 数据库操作汇总

本篇主要用于汇总MongoDB专栏,提供快速访问链接: MongoDB安装与使用MongoDB 中的基本概念MongoDB 数据库操作MongoDB 集合操作MongoDB 插入文档(插入一个、批量插入)MongoDB 查询文档(1)MongoDB 查询文档(2)MongoDB 查询文档(3)M…