hadoop集群-hadoop集群文档介绍内容-移动阿里云

Hadoop集群迁移至DataLake集群

本文将详细阐述如何将您已有的旧版数据湖集群（Hadoop），高效地迁移至数据湖集群（DataLake），以下分别简称“旧集群”和“新集群”。迁移过程将充分考虑旧集群的版本、元数据类型以及存储方式，并针对这些因素，提供适应新集群的迁移策略...

基于Hadoop集群支持Delta Lake或Hudi存储机制

涉及模块对应阿里云产品说明开源Hadoop 本地机房搭建Hadoop集群 云上虚拟机搭建Hadoop集群 阿里云E-MapReduce 原始数据存储在Hadoop集群中。基于Hadoop集群支持Delta Lake或Hudi湖仓一体架构前提条件已创建MaxCompute项目（非External...

开通EMR Doctor（Hadoop集群类型）

E-MapReduce（简称EMR）的数据湖（DataLake）、数据服务（DataServing）和自定义业务场景下的集群默认提供EMR Doctor服务，如果您使用的是旧版数据湖场景下的Hadoop集群类型（EMR-3.41.0之前版本、EMR 4.x版本、EMR-5.6.0之前版本），则...

配置弹性伸缩（仅Hadoop集群类型）

前提条件已新建Hadoop集群，创建详情请参见创建集群。注意事项弹性伸缩配置可以指定伸缩的节点的硬件规格。您可以在弹性伸缩功能未开启的情况下配置具体实例规格。如果特殊情况确实需要修改，可以关闭弹性伸缩功能后，再次开启。系统会...

开启或关闭弹性伸缩（仅Hadoop集群类型）

前提条件已完成弹性伸缩的配置，详情请参见配置弹性伸缩（仅Hadoop集群类型）。注意事项当伸缩组内节点数为0时，您才可以关闭弹性伸缩。当伸缩组内节点不为0时，您需要先为伸缩组设置缩容规则或者修改最大实例数为0，直至伸缩组内节点...

管理事件中心（Hadoop集群）

E-MapReduce（简称EMR）的事件中心用于记录Hadoop类型集群发生的重要事件，并将其自动同步到云监控服务。您可以在EMR控制台上查看集群的事件，并在云监控控制台上设置相应的事件告警。使用限制当前仅展示EMR on ECS中Hadoop类型集群的事件...

Dataphin如何使用一个Hadoop集群为所有项目创建计算源...

概述本文为您介绍Dataphin如何使用一个Hadoop集群为所有项目创建计算源从而提供计算与存储资源。详细信息 1.Dataphin一个计算源只可以被一个项目所绑定。2.通过创建不同的Hive DB从而创建不同的计算源来达到一个Hadoop集群创建多个计算源...

查看弹性伸缩记录（仅Hadoop集群类型）

在集群管理页面，单击目标集群的集群ID。单击上方的弹性伸缩页签。在弹性伸缩页面，单击伸缩记录页签。弹性伸缩的状态及描述见下表。状态描述执行成功根据伸缩规则，所有弹性伸缩中的所有节点被加入或移出集群。部分执行成功根据...

Teamtnt变种攻击Hadoop集群

概述 Hadoop作为一个分布式计算应用框架，种类功能繁多，而Hadoop Yarn作为其核心组件之一，负责将资源分配至各个集群中运行各种应用程序，并调度不同集群节点上的任务执行。Hadoop Yarn未授权访问使得攻击者无需认证即可通过REST API部署...

管理节点组（Hadoop、Data science和EMR Studio集群）

本文为您介绍如何新增、修改和删除节点组。背景信息您可以新增节点组，以满足不同实例节点的需求。例如，内存型实例节点（vCore:vMem=1 vCPU:8 GiB）用于大...如果需要查看弹性伸缩记录，详情请参见查看弹性伸缩记录（仅Hadoop集群类型）。

在文件存储 HDFS 版上使用Apache Tez

本文主要介绍在挂载文件存储 HDFS 版的Hadoop集群上安装及使用Apache Tez。前提条件已开通文件存储 HDFS 版服务并创建文件系统实例和挂载点。具体操作，请参见文件存储HDFS版快速入门。已为Hadoop集群所有节点安装JDK，且JDK版本不...

数据迁移

本文为您介绍如何迁移自建Kudu集群的数据到E-MapReduce上的Hadoop集群。前提条件您已自建Kudu集群。已创建E-MapReduce的Hadoop集群，并选择了Kudu服务，详情请参见创建集群。背景信息 EMR Kudu支持社区1.10以及1.11版本，可以使用社区...

Hadoop

本文主要介绍如何使用DLA Spark访问用户VPC中的HADOOP集群（开启kerberos认证的集群暂不支持）。前提条件您已开通数据湖分析DLA（Data Lake Analytics）服务。如何开通，请参见开通云原生数据湖分析服务。您已登录云原生数据库分析DLA...

创建集群

本章节为您介绍如何通过阿里云账号登录CDP控制台，使用一键购买，快速创建一个Hadoop集群。前提条件注册阿里云账号，并完成实名认证。具体操作请参考阿里云账号注册流程。完成对CDP的服务账号授权。具体操作请参考 RAM角色授权。创建集群...

在文件存储 HDFS 版上使用Apache Flink

本文介绍如何在挂载文件存储 HDFS 版的Hadoop集群上安装及使用Apache Flink。前提条件已开通文件存储 HDFS 版服务并创建文件系统实例和挂载点。具体操作，请参见文件存储HDFS版快速入门。已为Hadoop集群所有节点安装JDK，且JDK版本不...

在文件存储 HDFS 版上使用Apache Spark

本文主要介绍如何在挂载文件存储 HDFS 版的Hadoop集群上安装及使用Apache Spark。前提条件已开通文件存储 HDFS 版服务并创建文件系统实例和挂载点。具体操作，请参见文件存储HDFS版快速入门。已为Hadoop集群所有节点安装JDK，且JDK...

Spark对接DataHub

本文介绍如何在E-MapReduce的Hadoop集群，运行Spark作业消费DataHub数据、统计数据个数并打印出来。Spark Streaming消费DataHub 准备工作使用DataHub的订阅功能订阅Topic，详细信息请参见创建订阅。消费DataHub数据运行Spark Streaming...

从自建HDFS迁移数据

自建Hadoop集群数据迁移阿里云ECS自建Hadoop集群和文件引擎处于相同VPC网络环境时，可以直接通过VPC网络迁移数据到文件引擎。迁移命令如下所示：hadoop distcp-m 1000-bandwidth 30 hdfs:/oldcluster:8020/user/hive/warehouse hdfs:/${...

自建Hadoop数据迁移到阿里云E-MapReduce

客户在IDC或者公有云环境自建Hadoop集群，数据集中保存在HDFS文件系统用于数据分析任务。客户在决定上云之后，会将自建Hadoop集群的数据迁移到阿里云自建Hadoop集群或者EMR集群。本实践方案提供安全和低成本的HDFS数据迁移方案。适用场景 ...

搭建与管理（基于Hadoop）

通过MaxCompute与Hadoop构建湖仓一体方案旨在实现对海量数据的统一管理、存储和分析，提供了一个既能处理结构化...相关文档基于Hadoop集群支持Delta Lake或Hudi存储机制的湖仓一体方案，请参见基于Hadoop集群支持Delta Lake或Hudi存储机制。

弹性伸缩概述

使用方式集群类型相关文档 DataLake、Dataflow、OLAP和Custom集群添加弹性伸缩规则查看弹性伸缩活动可视化弹性成本分析查看集群资源概览 Hadoop集群 配置弹性伸缩（仅Hadoop集群类型）开启或关闭弹性伸缩（仅Hadoop集群类型）查看...

MaxCompute+Hadoop搭建实践

准备Hadoop数据源创建Hadoop集群，具体操作请参见开通阿里云EMR服务。进入Hive准备数据。使用Workbench方式登录集群主节点后，在终端界面输入如下命令：[has@emr-header-1 root]$hive-创建库 create database if not exists myhive;切换...

准备工作

环境准备已创建阿里云E-MapReduce的Hadoop集群。具体操作，请参见创建集群。已下载E-MapReduce的最新 SDK，SDK包的名称格式为emr-datasources_shaded_*.jar，emr-datasources_shaded_*.jar中包含Tablestore相关的Spark批流Source和Sink。...

设置Dataphin实例的计算引擎为Hadoop

如下图所示：已创建集群：可以通过E-MapReduce 5.x Hadoop集群的详情页查看所创建的集群存储类型。如下图所示：NameNode Hadoop支持添加同集群多个HDFS地址，只要有一个地址校验成功，即可完成元数据采集。例如 host=192.xxx.xx.xxx,...

使用Druid

对于独立的E-MapReduce Druid集群，如果您需要存放索引数据至一个Hadoop集群的HDFS，请设置两个集群的连通性（详情请参见与Hadoop集群交互）。在E-MapReduce Druid 配置页面的 common.runtime 页签，配置如下参数。参数描述 druid....

Spark对接Kafka

本文介绍如何在E-MapReduce的Hadoop集群运行Spark Streaming作业，处理Kafka集群的数据。背景信息 E-MapReduce上的Hadoop集群和Kafka集群都是基于纯开源软件，相关编程使用方法可参见官方相应文档。Spark官方文档：streaming-kafka-...

什么是EMR on ECS

与自建Hadoop集群对比开源大数据开发平台EMR与自建Hadoop集群的优势对比如下表所示。对比项阿里云EMR 自建Hadoop集群 成本支持按量和包年包月付费方式，集群资源支持灵活调整，数据分层存储，资源使用率高。无额外软件License费用。需...

数据源

本文将解答与数据源相关的问题。Q：Databricks数据洞察的支持哪些数据源？目前支持读写阿里云对象存储（OSS）的数据。Q：是否支持当前的DDI集群访问其他集群的HDFS数据？支持访问同账号下的EMR Hadoop集群上的HDFS数据。

测试环境

场景三：1 TB测试数据下DLA Spark+用户自建Hadoop集群与自建Hadoop+Spark性能对比场景说明：使用自建Spark和DLA Spark分别访问自建Hadoop集群，运行Terasort 1 TB基准测试，对它们的耗时进行对比分析。DLA Spark+OSS配置如下：配置名称 ...

Gateway节点运行Flume进行数据同步

在Gateway节点运行Flume可以避免对E-MapReduce Hadoop集群产生影响。使用Gateway节点部署Flume Agent的基本数据流如下图所示。环境准备本示例在华北1（杭州）进行测试，版本选择EMR-3.17.0。创建Hadoop集群，在可选服务中选择 Flume。...

快捷模式与安全模式差异比对

说明 Hadoop用户拥有Hadoop集群的所有权限，请谨慎授权。适用于对任务执行者数据权限无强管控要求的工作空间。安全模式用于实现更具安全性的数据权限管理。使用该模式绑定EMR引擎时，阿里云主账号或RAM用户在下发代码的同时，DataWorks会...

配置自建RDS

本文介绍如何配置自建的阿里云RDS，作为E-MapReduce（简称EMR）上DataLake集群、Custom集群或Hadoop集群的元数据。前提条件已购买RDS MySQL实例（EMR所有版本均支持MySQL 5.7，仅EMR-3.35.0以上版本、EMR-5.0.0以上版本同时支持MySQL 5.7...

从OSS迁移数据

搭建Hadoop集群。建议您使用的Hadoop版本不低于2.7.3，本文档中使用的Hadoop版本为Apache Hadoop 2.7.3，修改Hadoop 配置信息，详情参见使用开源HDFS客户端访问。在Hadoop集群所有节点上安装JDK，本操作要求JDK版本不低于1.8。在Hadoop...

扩容磁盘

Hadoop集群类型中通过弹性伸缩模块创建的弹性伸缩组（创建详情请参见配置弹性伸缩（仅Hadoop集群类型）），无法进行该操作。注意事项云盘扩容后无法缩容，建议您合理规划存储空间。操作步骤进入节点管理页面。登录EMR on ECS控制台。在...

自建Hive数据仓库迁移到阿里云E-MapReduce

客户在IDC或者公有云环境自建Hadoop集群，数据集中保存在HDFS文件系统，同时借助Hive进行常见的ETL任务。客户在决策上云之后，会将自建Hadoop集群的数据迁移到阿里云自建Hadoop或者EMR。方案优势易用性您可以简单选择所需ECS机型（CPU、...

缩容集群

Hadoop集群类型中通过弹性伸缩模块创建的弹性伸缩组（创建详情请参见配置弹性伸缩（仅Hadoop集群类型）），无法进行该操作。操作步骤进入节点管理页面。登录 E-MapReduce控制台。在顶部菜单栏处，根据实际情况选择地域和资源组。单击...

创建Hadoop计算源

若您需开启Impala任务进行快速查询和分析数据，请您提前在Hadoop集群上部署Impala（Impala v2.5及以上版本）。在E-MapReduce5.x计算引擎下，若您需要使用基于OSS创建的Hive外部表进行离线集成。您需要进行相关配置后，才可以正常使用。配置...

在文件存储 HDFS 版上使用Apache HBase

步骤一：Hadoop集群挂载文件存储 HDFS 版实例在Hadoop集群中配置文件存储 HDFS 版实例。具体操作，请参见挂载文件存储 HDFS 版文件系统。步骤二：配置Apache HBase 将Hadoop中配置的core-site.xml复制到${HBASE_HOME}/conf目录下。cp...

测试结果

1 TB测试数据下DLA Spark+用户自建Hadoop集群与自建Hadoop+Spark性能对比结果集群类型运行Terasort基准测试集耗时（min）DLA Spark+OSS 43.5 自建Hadoop+Spark 44.8 您可以将自建Hadoop和DLA Spark混合使用，自建Hadoop集群在高峰期需要...

DataLake或Custom集群类型 sudo mv/tmp/hive.jceks$HIVE_CONF_DIR sudo chown hive$HIVE_CONF_DIR/hive.jceks Hadoop集群类型 sudo mv/tmp/hive.jceks$HIVE_CONF_DIR sudo chown hadoop$HIVE_CONF_DIR/hive.jceks 在EMR控制台目标集群Hive...