Hadoop是一个由Apache基金会开发的开源分布式计算框架,在处理大数据方面非常有用。它可以存储和处理大规模数据集,通过使用多台计算机构建集群,将数据分散到集群中的节点上进行处理。
Hadoop由两个核心组件组成:
-
Hadoop Distributed File System(HDFS):这是一个可扩展的和容错性极高的文件系统,它使用多种方式保证了数据的可靠性、容错性和快速恢复性;
-
MapReduce:这是一个基于数据处理的编程模型,涵盖了作业跟踪、资源管理等方面,充分利用集群中的计算资源并提供数据并行处理功能。
通过使用Hadoop,用户可以更有效地处理大规模数据集,并能够轻松地扩展其数据存储和处理能力。同时,由于其具有开放性和高度可定制性,因此Hadoop已成为许多企业和组织首选的解决方案。
在mac下安装Hadoop主要分为以下几个步骤:
- 确保已经安装了Java环境,可以在终端中输入
java -version
命令来检查Java版本并确认其是否正常运行; - 下载Hadoop二进制发行版,您可以从https://hadoop.apache.org/releases.html下载最新版本,然后解压到您选择的目录中;
- 配置Hadoop环境变量,在
~/.bash_profile
文件中添加或修改以下内容:
export HADOOP_HOME=/path/to/hadoop
export PATH=$PATH:$HADOOP_HOME/bin
其中/path/to/hadoop
是您自己的Hadoop解压路径,保存后执行source ~/.bash_profile
使配置生效;
4. 配置Hadoop单机伪分布式模式,将$HADOOP_HOME/etc/hadoop/core-site.xml
和$HADOOP_HOME/etc/hadoop/hdfs-site.xml
文件中的localhost
改为0.0.0.0
;
5. 启动Hadoop集群,在终端中执行start-all.sh
命令即可启动Hadoop集群。
完成上述步骤后,即可在mac上成功安装和启动Hadoop,进行大规模数据处理。当然,根据不同的应用场景,您可能需要进一步配置和优化Hadoop集群,以达到更高的性能和可靠性。
参考资料
Hadoop – Apache Hadoop 3.3.5
https://monday.blog.csdn.net/article/details/88189753
hadoop3.2.3 编译 native库(超详细,亲测成功)_hadoop native_兔帮大人的博客-CSDN博客
Index of /apache/hadoop/common/stable
Mac M1芯片本地安装 hadoop 集群填坑之路_喵王叭的博客-CSDN博客