大数据技术学习笔记（一）——初识大数据

news/2024/5/20 1:15:48 标签: big data, hadoop, hdfs, 大数据, mapreduce

1 大数据的概念

大数据：指无法在一定的时间范围内用常规的软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

主要解决海量数据的存储和海量数据的分析计算问题。

2 大数据的特点

大数据的特点简称 4V 特征：

Volume（数据量大）
Velocity（速度快）
Variety（种类繁多）
Value（价值密度低）

3 大数据生态圈

3.1 Hadoop 是什么

Hadoop是一个由Apache基金会所开发的分布式系统基础架构，主要解决海量数据的存储和海量数据的分析计算问题。从广义来说，Hadoop通常指的是一个更广泛的概念——Hadoop生态圈。

3.2 Hadoop 的来源

Google是Hadoop的思想之源，（Google在大数据方面的三篇论文）

GFS ——> HDFS
MapReduce ——> MR
BigTable ——> HBase

3.3 Hadoop的特点

高容错性：能够自动将失败的任务重新分配
高可靠性：Hadoop底层维护多个数据副本，所以即使Hadoop某个计算元素或存储出现故障，也不会导致数据的丢失
高扩展性：在集群间分配任务数据，可方便的扩展数以千计的节点
高效性：在MapReduce的思想下，Hadoop并行工作，以加快任务处理速度

3.4 Hadoop的组成

在这里插入图片描述
注意：
模块间联系越多,其耦合性越强,同时表明其独立性越差

3.4.1 HDFS

HDFS架构：

NameNode（nn）：存索引，存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间、副本数、文件权限）,以及每个文件的块列表和块所在的DataNode等。
DataNode（dn）：存数据，在本地文件系统存储文件块数据，以及块数据的校验和
Secondary NameNode（2nn）：NameNode的助手，但不能说是其备份，用来监控HDFS状态的辅助后台程序，每隔一段时间获取HDFS元数据地快照

3.4.2 YARN

在这里插入图片描述

3.4.3 MapReduce

MapReduce将计算过程分为两个阶段：Map和Reduce

Map阶段并行处理输入数据
Reduce阶段对Map结果进行汇总

http://www.niftyadmin.cn/n/1509134.html

相关文章

checkboxlist实现单选

checkboxlist实现单选

functionCheckBoxList_Click(sender) { var container sender.parentNode; if(container.tagName.toUpperCase() "TD") { // 服务器控件设置呈现为 table 布局（默认设置），否则使用流布局 c…

阅读更多...

IIS的各种身份验证详细测试

IIS的各种身份验证详细测试

IIS的各种身份验证详细测试一、 IIS的身份验证概述 1、匿名访问 2、集成windows身份验证 2.1. NTLM验证 2.2. Kerberos验证 3、基本身份验证二、匿名访问三、 Windows集成验证 1、 NTLM验证过程 1.1. 客户端选择NTLM方式 1.2. 服务…

阅读更多...

用ASP.NET有两个月了。

用ASP.NET有两个月了。

转载于:https://www.cnblogs.com/hiwin2001/archive/2004/10/12/51443.html

阅读更多...

可怜的中国足球!

可怜的中国足球!

昨天看到中国国家男足的分组情况后感觉没有什么新鲜感了,以前看分组的时候还有感死亡之组的概念,现在看分组感觉都一样了,没什么感觉了.感觉几个小组都一样,中国队到哪个组都应该定义为死亡之组.看看中国这组,伊拉克,澳大利亚,卡塔尔.澳大利亚因为有多个球员在国外踢球实力确实…

阅读更多...

MCSE2003学习之一

MCSE2003学习之一

MCSE2003之2276：实现2003网络结构，网络主机TCP/IP协议的结构一：OSI模型计算机网络的形成促使网络协议的成熟。IBM在1974年提出了SNA网络协议二：分层模型的网络体系1：OSI/RM开放系统互联ApplicationPresentationSession…

阅读更多...

使用工厂模式的两篇文章对比看会有比较好的效果

使用工厂模式的两篇文章对比看会有比较好的效果

1.工厂模式1 2.工厂模式2转载于:https://www.cnblogs.com/chiname/archive/2004/12/14/76969.html

阅读更多...

从开始到现在之二

从开始到现在之二

经过自己三个多月的努力，该上战场了。可那时我的数学一遍都没复习完，就这样也厚着脸皮上了。呵呵，相信很多朋友遇见这种情况，一定都放弃了，呵呵，本人可没有，就是这样坚持到考试结束！…

阅读更多...

推荐几个网址 -by jhy

推荐几个网址 -by jhy

http://www.cnblogs.com/ 一个讨论.net 的地方 http://sourceforge.net/projects/aopnet/ 开源的AOP项目先扔两个转头,希望大家顶啊! 转载于:https://www.cnblogs.com/zsgcjys/archive/2004/12/25/81961.html

阅读更多...

最新文章