实验名称

部署分布模式Hadoop集群

实验性质

(必修、选修)

必修

实验类型验证设计创新综合

综合

实验课时

2

实验日期

2023.10.16-2023.10.20

实验仪器设备以及实验软硬件要求

专业实验室配有centos7.5系统linux虚拟机三台

实验目的

1. 熟练掌握Linux基本命令

2. 掌握静态IP地址配置主机名域名映射修改

3. 掌握Linux环境下Java安装环境变量配置、Java基本命令使用

4. 理解为何需要配置SSH免密登录,掌握Linux环境下SSH的安装、免密登录配置

5. 熟练掌握在Linux环境如何部署分布模式Hadoop集群。

实验内容(实验原理、运用的理论知识算法程序步骤方法

一:实验原理

1. Linux基本命令

   – Linux一个免费使用和自由传播的类Unix操作系统支持多用户多任务多线程和多CPU。

   – Linux基本命令包括查看当前目录pwd)、切换目录cd)、罗列文件ls)、创建目录mkdir)、拷贝文件cp)、移动重命名文件mv)、删除文件(rm)、查看进程ps)、压缩解压文件(tar)、查看文件内容cat)、查看机器IP配置ip address)等。

2. vim编辑器

   – vim一个功能强大、高度定制文本编辑器,是vi的加强版,支持命令模式输入模式和末行模式

   – vi/vim工作模式包括命令模式输入模式和末行模式用户可以在这些模式之间切换执行相应的操作

3. Java基本命令

   – Java是一种跨平台编程语言,Hadoop使用Java语言编写

   – Java基本命令包括查看Java版本javaversion)、查看当前所有Java进程jps)、编译Java程序javac)、运行Java程序java)、打包Java程序jar文件(jar)等。

4. SSH安全通信协议

   – SSH(Secure Shell)是一种安全通信协议用于远程管理其他机器,提供加密网络数据传输

   – SSH使用非对称加密,包括服务端发送公钥客户端利用公钥加密数据服务端利用私钥解密验证步骤

   – Hadoop节点各个节点的SSH免密登录配置是为了方便管理整个集群。

5. Hadoop

   – Hadoop一个分布式存储计算软件框架具有高可用、弹性扩展的特点,适合处理大规模数据

   – Hadoop包括分布式文件系统HDFS、统一资源管理调度框架YARN、分布式计算框架MapReduce

   – Hadoop运行环境需要配置操作系统(Linux)、Java环境、SSH。

   – Hadoop运行模式包括单机模式、伪分布模式和全分布模式

   – Hadoop生态系统涵盖了许多子系统,形成了一个庞大的体系

   – Hadoop集群采用主从架构,包括Master(NameNode、ResourceManager)和Slave(DataNode、NodeManager)。

   – Hadoop的主要配置文件包括hadoopenv.shyarnenv.shmapredenv.shcoresite.xmlhdfssite.xmlyarnsite.xmlmapredsite.xml等。

二:实验步骤

这里直接从hadoop的安装和jdk安装,环境配置讲起:

1.Hadoop解压后的文件目录

2.Jdk解压文件目录

3.修改环境变量的文件:

此时在master节点修改hadoop配置文件

4.配置coresite.xml

5.配置mapredenv.sh

6.配置hdfssite.xml

7.配置mapredsite.xml

8.配置yarnsite.xml

9.配置文件slaves

  1. master节点hadoop同步slave1和slave2节点

  1. 启动hadoop

startdfs.sh

start-yarn.sh

mrjobhistory-daemon.sh start historyserver

启动结果下图所示

start-dfs.sh

start-yarn.sh

此时使用jps查看各个节点端口启用情况:

节点

从节点:

mrjobhistory-daemon.sh start historyserver

此时就可以进入hadoopwebui界面了:

实验结果分析

部署全分布模式Hadoop集群的实验结果与分析主要包括以下几个步骤

1.网络和节点规划:首先,我们需要规划网络和节点。例如,我们可以为主节点和从节点分配不同的IP地址

2.环境准备:这包括克隆虚拟机,网络配置,修改主机名,配置网络映射等

3.设置SSH无密码登录节点:这是为了确保主节点可以无密码登录到所有从节点

4.安装配置Hadoop集群:这包括配置Java、Hadoop的环境变量,配置分布式集群环境(6个配置文件),分发Hadoop集群安装目录及文件,启动和停止Hadoop集群等

5.时间同步:安装NTP服务器,配置其他机器的时间同步

这个过程可能会遇到一些问题,但通过不断的实践和调整,我们可以逐步优化集群的性能

总的来说,部署全分布模式Hadoop集群是一个复杂的过程,需要对Hadoop和相关技术有深入的理解。但是,一旦集群部署成功,它将为处理大规模数据提供强大的计算能力。

原文地址:https://blog.csdn.net/CSH__/article/details/134632102

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任

如若转载,请注明出处:http://www.7code.cn/show_27066.html

如若内容造成侵权/违法违规/事实不符,请联系代码007邮箱suwngjj01@126.com进行投诉反馈,一经查实,立即删除

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注