大数据技术学习笔记(一)——初识大数据

news/2024/5/20 1:15:48 标签: big data, hadoop, hdfs, 大数据, mapreduce

1 大数据的概念

大数据:指无法在一定的时间范围内用常规的软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

主要解决海量数据的存储和海量数据的分析计算问题。

2 大数据的特点

大数据的特点简称 4V 特征:

  • Volume(数据量大)
  • Velocity(速度快)
  • Variety(种类繁多)
  • Value(价值密度低)

3 大数据生态圈

3.1 Hadoop 是什么

Hadoop是一个由Apache基金会所开发的分布式系统基础架构,主要解决海量数据的存储和海量数据的分析计算问题。从广义来说,Hadoop通常指的是一个更广泛的概念——Hadoop生态圈。

3.2 Hadoop 的来源

Google是Hadoop的思想之源,(Google在大数据方面的三篇论文)

  • GFS ——> HDFS
  • MapReduce ——> MR
  • BigTable ——> HBase

3.3 Hadoop的特点

  • 高容错性 :能够自动将失败的任务重新分配
  • 高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失
  • 高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点
  • 高效性:在MapReduce的思想下,Hadoop并行工作,以加快任务处理速度

3.4 Hadoop的组成

在这里插入图片描述
注意:
模块间联系越多,其耦合性越强,同时表明其独立性越差

3.4.1 HDFS

HDFS架构:

  • NameNode(nn):存索引,存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。
  • DataNode(dn):存数据,在本地文件系统存储文件块数据,以及块数据的校验和
  • Secondary NameNode(2nn):NameNode的助手,但不能说是其备份,用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据地快照

3.4.2 YARN

在这里插入图片描述

3.4.3 MapReduce

MapReduce将计算过程分为两个阶段:Map和Reduce

  • Map阶段并行处理输入数据
  • Reduce阶段对Map结果进行汇总

http://www.niftyadmin.cn/n/1509134.html

相关文章

checkboxlist实现单选

functionCheckBoxList_Click(sender) { var container sender.parentNode; if(container.tagName.toUpperCase() "TD") { // 服务器控件设置呈现为 table 布局(默认设置),否则使用流布局 c…

IIS的各种身份验证详细测试

IIS的各种身份验证详细测试 一、 IIS的身份验证概述 1、 匿名访问 2、 集成windows身份验证 2.1. NTLM验证 2.2. Kerberos验证 3、 基本身份验证 二、 匿名访问 三、 Windows集成验证 1、 NTLM验证过程 1.1. 客户端选择NTLM方式 1.2. 服务…

用ASP.NET有两个月了。

转载于:https://www.cnblogs.com/hiwin2001/archive/2004/10/12/51443.html

可怜的中国足球!

昨天看到中国国家男足的分组情况后感觉没有什么新鲜感了,以前看分组的时候还有感死亡之组的概念,现在看分组感觉都一样了,没什么感觉了.感觉几个小组都一样,中国队到哪个组都应该定义为死亡之组.看看中国这组,伊拉克,澳大利亚,卡塔尔.澳大利亚因为有多个球员在国外踢球实力确实…

MCSE2003学习之一

MCSE2003之2276:实现2003网络结构,网络主机TCP/IP协议的结构一:OSI模型计算机网络的形成促使网络协议的成熟。IBM在1974年提出了SNA网络协议二:分层模型的网络体系1:OSI/RM开放系统互联ApplicationPresentationSession…

使用工厂模式的两篇文章对比看会有比较好的效果

1.工厂模式1 2.工厂模式2转载于:https://www.cnblogs.com/chiname/archive/2004/12/14/76969.html

从开始到现在之二

经过自己三个多月的努力,该上战场了。可那时我的数学一遍都没复习完,就这样也厚着脸皮上了。呵呵,相信很多朋友遇见这种情况,一定都放弃了,呵呵,本人可没有,就是这样坚持到考试结束!…

推荐几个网址 -by jhy

http://www.cnblogs.com/ 一个讨论.net 的地方 http://sourceforge.net/projects/aopnet/ 开源的AOP项目 先扔两个转头,希望大家顶啊! 转载于:https://www.cnblogs.com/zsgcjys/archive/2004/12/25/81961.html