Hadoop 概述

互联网 2 年前 0 4

本文介绍: Had oop 是一个由 Ap ac he 基金会开发的开源分布式计算框架，旨在处理和分析海量数据。它提供了对大数据进行存储、处理和分析的基础架构，并且可以在低成本的硬件集群上运行。通常情况下 Had oop 是指一个更广泛的概念——Had oop 生态圈。Had oop Di str i bu t e d File Sy ste m (HDFS) 是 Had o op 的核心组件之一，提供了一个高度容错性的分布式文件系统。

总体而言，Hadoop 的优势在于其能够有效地处理大规模数据、提供高度可扩展性和容错性，同时具备开源性和灵活性，适用于各种不同的应用场景。

Hadoop Distributed File Sy ste m (HDFS) 是 Hadoop 的核心组件之一，提供了一个高度容错性的分布式文件系统。

Yet Another Resource Negotiator (YARN) 是 Hadoop 2.x版本引入的资源管理和调度平台。它负责管理整个集群的计算资源（如CPU和内存）以及任务调度。YARN允许其他计算框架（例如 Spark 或 Flink）与 Hadoop 集成并在同一集群上运行。

MapReduce 是一种编程模型，用于编写分布式数据处理应用程序。它将复杂的计算任务分解为两个主要阶段：Map 阶段和 Reduce 阶段。

客户端 Client 提交任务到资源管理器（ResourceMana ger），资源管理器接收到任务之后去NodeManager 节点开启任务（Appli cationMaster）, Appli cationMaster 向 ResourceManager 申请资源，若有资源 Appli cationMaster 负责开启任务即 MapTask。开始干活了即分析任务，每个 map 独立工作，各自负责检索各自对应的 DataNode，将结果记录到 HDFS，DataNode 负责存储，NameNode 负责记录，2nn 负责备份部分数据。

显示所有内容

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

hadoop hdfs 概述

相关文章

hadoop学习笔记

互联网 1 年前 3

@ResponseBody

互联网 1 年前 3

Hadoop-生产调优

互联网 1 年前 6

2.0 Hadoop 运行环境

2.0 Hadoop 运行环境

互联网 1 年前 7

大数据 – Spark系列《一》- 从Hadoop到Spark：大数据计算引擎的演进

大数据 – Spark系列《一》- 从Hadoop到Spark：大数据计算引擎的演进

大数据 1 年前 6

2024-02-01(Hive)

2024-02-01(Hive)

互联网 1 年前 4

JVM之GC垃圾回收

互联网 1 年前 5

行为型设计模式—中介者模式

互联网 1 年前 6

发表回复取消回复