本文介绍: Hadoop 是一个由 Apache 基金会开发的开源分布式计算框架,旨在处理和分析海量数据。它提供了对大数据进行存储、处理和分析的基础架构,并且可以在低成本的硬件集群上运行。通常情况下 Hadoop 是指一个更广泛的概念——Hadoop 生态圈。Hadoop Distributed File System (HDFS) 是 Hadoop 的核心组件之一,提供了一个高度容错性的分布式文件系统。
Hadoop 概述
Hadoop 是什么
Hadoop 主要发展历程
Hadoop 优势
总体而言,Hadoop 的优势在于其能够有效地处理大规模数据、提供高度可扩展性和容错性,同时具备开源性和灵活性,适用于各种不同的应用场景。
Hadoop 组成
Hadoop 1.x、2.x、3.x 区别
HDFS 概述
Hadoop Distributed File System (HDFS) 是 Hadoop 的核心组件之一,提供了一个高度容错性的分布式文件系统。
YARN 概述
Yet Another Resource Negotiator (YARN) 是 Hadoop 2.x版本引入的资源管理和调度平台。它负责管理整个集群的计算资源(如CPU和内存)以及任务调度。YARN允许其他计算框架(例如 Spark 或 Flink)与 Hadoop 集成并在同一集群上运行。
MapReduce 架构概述
MapReduce 是一种编程模型,用于编写分布式数据处理应用程序。它将复杂的计算任务分解为两个主要阶段:Map 阶段和 Reduce 阶段。
HDFS、YARN、MapReduce 三者关系
客户端 Client 提交任务到资源管理器(ResourceManager),资源管理器接收到任务之后去NodeManager 节点开启任务(ApplicationMaster), ApplicationMaster 向 ResourceManager 申请资源,若有资源 ApplicationMaster 负责开启任务即 MapTask。开始干活了即分析任务,每个 map 独立工作,各自负责检索各自对应的 DataNode,将结果记录到 HDFS,DataNode 负责存储,NameNode 负责记录,2nn 负责备份部分数据。
Hadoop 生态圈
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。