EMR学习笔记(1)HDFS

简介: 对比开源HDFS,介绍说明EMR集群的HDFS组件基本架构部署情况。并演示远程登录主、从节点,进行基本运维,服务启停等操作。

EMR HDFS Architecture

本文以非HA集群,2个worker的集群为例。
_2019_06_07_11_13_38
emr_hdfs

非HA集群,仅有一个Namenode实例,部署在Master节点。
Namenode主要职责:
-管理文件系统namespace,包括但不仅限于:开、关文件,文件改名,目录操作等。
-管控客户端对文件的访问

EMR hadoop集群,每个Worker节点仅部署一个Datanode实例。
Datanode主要职责:
-管理所在节点挂载的存储
-提供给客户端读写服务
-block创建、删除以及replication

登录EMR集群实现基本运维

在较新的集群版本中(3.2 以上版本),所有的服务操作都可以通过集群的配置管理功能来完成。推荐优先使用 Web 页面的管理方式。

若您觉得在网页上的作业和执行计划无法满足您更加复杂的应用需求,您可以登录到 E-MapReduce 集群的主机上。找到集群的详情页,其中就有集群 master 机器的公网 IP 地址,您可以直接 SSH 登录到这台机器上,查看各种设置与状态。

登录 Master 主机步骤

  1. 使用如下命令 SSH 登录到 master 主机。请在集群详情页的主机信息栏中获取集群 master 机器的公网 IP。
    ssh root@ip.of.master
  2. 输入创建集群时设定的密码。

如何登录 Core 节点
A:按照如下步骤:

  1. 首先在 Master 节点上切换到 Hadoop 账号:
    su hadoop
  2. 然后即可免密码 SSH 登录到对应的 Core 节点:
    ssh emr-worker-1
  3. 通过 sudo 可以获得 root 权限:
    sudo vi /etc/hosts

通过命令行方式启停服务进程
操作用账号:hdfs

  • NameNode (Master 节点)
// 启动
/usr/lib/hadoop-current/sbin/hadoop-daemon.sh start namenode
// 停止
/usr/lib/hadoop-current/sbin/hadoop-daemon.sh stop namenode
  • DataNode (Core 节点)
// 启动
/usr/lib/hadoop-current/sbin/hadoop-daemon.sh start datanode
// 停止
/usr/lib/hadoop-current/sbin/hadoop-daemon.sh stop datanode

示例:登录实际emr集群演示停止datanode进程操作
20190608093637

目录
相关文章
|
8月前
|
存储 SQL 分布式计算
阿里云全托管flink-vvp平台hudi connector实践(基于emr集群oss-hdfs存储)
阿里云全托管flink-vvp平台hudi sink connector实践,本文数据湖hudi基于阿里云E-MapReduce产品,以云对象存储oss-hdfs作为存储
|
7月前
|
存储 分布式计算 负载均衡
Hadoop学习笔记(二)之HDFS
Hadoop学习笔记(二)之HDFS
|
4月前
|
存储 SQL 分布式计算
Hadoop(HDFS+MapReduce+Hive+数仓基础概念)学习笔记(自用)
Hadoop(HDFS+MapReduce+Hive+数仓基础概念)学习笔记(自用)
254 0
|
4月前
|
存储 机器学习/深度学习 分布式计算
Hadoop学习笔记(HDP)-Part.12 安装HDFS
01 关于HDP 02 核心组件原理 03 资源规划 04 基础环境配置 05 Yum源配置 06 安装OracleJDK 07 安装MySQL 08 部署Ambari集群 09 安装OpenLDAP 10 创建集群 11 安装Kerberos 12 安装HDFS 13 安装Ranger 14 安装YARN+MR 15 安装HIVE 16 安装HBase 17 安装Spark2 18 安装Flink 19 安装Kafka 20 安装Flume
69 0
Hadoop学习笔记(HDP)-Part.12 安装HDFS
|
7月前
|
SQL 弹性计算 分布式计算
使用EMR+DLF+OSS-HDFS进行数据湖分析
本实验通过使用EMR,搭建EMR集群,对OSS-HDFS进行数据湖分析
543 0
|
SQL 存储 DataWorks
视频-《 EMR 数据开发》|学习笔记(四)
快速学习视频-《 EMR 数据开发》
193 0
视频-《 EMR 数据开发》|学习笔记(四)
|
弹性计算 资源调度 运维
视频-《 EMR 集群运维与排障》|学习笔记(四)
快速学习视频-《 EMR 集群运维与排障》
174 0
视频-《 EMR 集群运维与排障》|学习笔记(四)
|
存储 缓存 分布式计算
HDFS(二)|学习笔记
快速学习 HDFS(二)
133 0
HDFS(二)|学习笔记
|
数据采集 存储 SQL
爬虫识别-HDFS数据恢复到 Redis| 学习笔记
快速学习爬虫识别-HDFS数据恢复到 Redis
160 0
|
监控 开发工具 开发者
网站流量日志 Flume收集--hdfs--基于文件闲置策略滚动| 学习笔记
快速学习网站流量日志 Flume收集--hdfs--基于文件闲置策略滚动
141 0
网站流量日志 Flume收集--hdfs--基于文件闲置策略滚动| 学习笔记