【Hadoop】Hadoop概念与实践

Hadoop是一个由Apache基金会开发的开源分布式计算框架，在处理大数据方面非常有用。它可以存储和处理大规模数据集，通过使用多台计算机构建集群，将数据分散到集群中的节点上进行处理。

Hadoop由两个核心组件组成：

Hadoop Distributed File System（HDFS）：这是一个可扩展的和容错性极高的文件系统，它使用多种方式保证了数据的可靠性、容错性和快速恢复性；
MapReduce：这是一个基于数据处理的编程模型，涵盖了作业跟踪、资源管理等方面，充分利用集群中的计算资源并提供数据并行处理功能。

通过使用Hadoop，用户可以更有效地处理大规模数据集，并能够轻松地扩展其数据存储和处理能力。同时，由于其具有开放性和高度可定制性，因此Hadoop已成为许多企业和组织首选的解决方案。

在mac下安装Hadoop主要分为以下几个步骤：

export HADOOP_HOME=/path/to/hadoop
export PATH=$PATH:$HADOOP_HOME/bin

其中/path/to/hadoop是您自己的Hadoop解压路径，保存后执行source ~/.bash_profile使配置生效；

4. 配置Hadoop单机伪分布式模式，将$HADOOP_HOME/etc/hadoop/core-site.xml和$HADOOP_HOME/etc/hadoop/hdfs-site.xml文件中的localhost改为0.0.0.0；

5. 启动Hadoop集群，在终端中执行start-all.sh命令即可启动Hadoop集群。

完成上述步骤后，即可在mac上成功安装和启动Hadoop，进行大规模数据处理。当然，根据不同的应用场景，您可能需要进一步配置和优化Hadoop集群，以达到更高的性能和可靠性。

参考资料

Hadoop – Apache Hadoop 3.3.5

https://monday.blog.csdn.net/article/details/88189753

hadoop3.2.3 编译 native库（超详细，亲测成功）_hadoop native_兔帮大人的博客-CSDN博客

Index of /apache/hadoop/common/stable

Mac M1芯片本地安装 hadoop 集群填坑之路_喵王叭的博客-CSDN博客

【Hadoop】Hadoop概念与实践