hadoop集群

_相关内容

Hadoop集群迁移至DataLake集群

本文将详细阐述如何将您已有的旧版数据湖集群Hadoop),高效地迁移至数据湖集群(DataLake),以下分别简称“旧集群”和“新集群”。迁移过程将充分考虑旧集群的版本、元数据类型以及存储方式,并针对这些因素,提供适应新集群的迁移策略...

基于Hadoop集群支持Delta Lake或Hudi存储机制

涉及模块 对应阿里云产品 说明 开源Hadoop 本地机房搭建Hadoop集群 云上虚拟机搭建Hadoop集群 阿里云E-MapReduce 原始数据存储在Hadoop集群中。基于Hadoop集群支持Delta Lake或Hudi湖仓一体架构 前提条件 已创建MaxCompute项目(非External...

开通EMR Doctor(Hadoop集群类型)

E-MapReduce(简称EMR)的数据湖(DataLake)、数据服务(DataServing)和自定义业务场景下的集群默认提供EMR Doctor服务,如果您使用的是旧版数据湖场景下的Hadoop集群类型(EMR-3.41.0之前版本、EMR 4.x版本、EMR-5.6.0之前版本),则...

配置弹性伸缩(仅Hadoop集群类型)

前提条件 已新建Hadoop集群,创建详情请参见 创建集群。注意事项 弹性伸缩配置可以指定伸缩的节点的硬件规格。您可以在弹性伸缩功能未开启的情况下配置具体实例规格。如果特殊情况确实需要修改,可以关闭弹性伸缩功能后,再次开启。系统会...

开启或关闭弹性伸缩(仅Hadoop集群类型)

前提条件 已完成弹性伸缩的配置,详情请参见 配置弹性伸缩(仅Hadoop集群类型)。注意事项 当伸缩组内节点数为0时,您才可以关闭弹性伸缩。当伸缩组内节点不为0时,您需要先为伸缩组设置缩容规则或者修改最大实例数为0,直至伸缩组内节点...

管理事件中心(Hadoop集群

E-MapReduce(简称EMR)的事件中心用于记录Hadoop类型集群发生的重要事件,并将其自动同步到云监控服务。您可以在EMR控制台上查看集群的事件,并在云监控控制台上设置相应的事件告警。使用限制 当前仅展示EMR on ECS中Hadoop类型集群的事件...

Dataphin如何使用一个Hadoop集群为所有项目创建计算源...

概述 本文为您介绍Dataphin如何使用一个Hadoop集群为所有项目创建计算源从而提供计算与存储资源。详细信息 1.Dataphin一个计算源只可以被一个项目所绑定。2.通过创建不同的Hive DB从而创建不同的计算源来达到一个Hadoop集群创建多个计算源...

查看弹性伸缩记录(仅Hadoop集群类型)

集群管理 页面,单击目标集群集群ID。单击上方的 弹性伸缩 页签。在弹性伸缩页面,单击 伸缩记录 页签。弹性伸缩的状态及描述见下表。状态 描述 执行成功 根据伸缩规则,所有弹性伸缩中的所有节点被加入或移出集群。部分执行成功 根据...

Teamtnt变种攻击Hadoop集群

概述 Hadoop作为一个分布式计算应用框架,种类功能繁多,而Hadoop Yarn作为其核心组件之一,负责将资源分配至各个集群中运行各种应用程序,并调度不同集群节点上的任务执行。Hadoop Yarn未授权访问使得攻击者无需认证即可通过REST API部署...

管理节点组(Hadoop、Data science和EMR Studio集群

本文为您介绍如何新增、修改和删除节点组。背景信息 您可以新增节点组,以满足不同实例节点的需求。例如,内存型实例节点(vCore:vMem=1 vCPU:8 GiB)用于大...如果需要查看弹性伸缩记录,详情请参见 查看弹性伸缩记录(仅Hadoop集群类型)。

在文件存储 HDFS 版上使用Apache Tez

本文主要介绍在挂载 文件存储 HDFS 版 的Hadoop集群上安装及使用Apache Tez。前提条件 已开通 文件存储 HDFS 版 服务并创建文件系统实例和挂载点。具体操作,请参见 文件存储HDFS版快速入门。已为Hadoop集群所有节点安装JDK,且JDK版本不...

数据迁移

本文为您介绍如何迁移自建Kudu集群的数据到E-MapReduce上的Hadoop集群。前提条件 您已自建Kudu集群。已创建E-MapReduce的Hadoop集群,并选择了Kudu服务,详情请参见 创建集群。背景信息 EMR Kudu支持社区1.10以及1.11版本,可以使用社区...

Hadoop

本文主要介绍如何使用DLA Spark访问用户VPC中的HADOOP集群(开启kerberos认证的集群暂不支持)。前提条件 您已开通数据湖分析DLA(Data Lake Analytics)服务。如何开通,请参见 开通云原生数据湖分析服务。您已登录云原生数据库分析DLA...

创建集群

本章节为您介绍如何通过阿里云账号登录CDP控制台,使用一键购买,快速创建一个Hadoop集群。前提条件 注册阿里云账号,并完成实名认证。具体操作请参考 阿里云账号注册流程。完成对CDP的服务账号授权。具体操作请参考 RAM角色授权。创建集群...

在文件存储 HDFS 版上使用Apache Flink

本文介绍如何在挂载 文件存储 HDFS 版 的Hadoop集群上安装及使用Apache Flink。前提条件 已开通 文件存储 HDFS 版 服务并创建文件系统实例和挂载点。具体操作,请参见 文件存储HDFS版快速入门。已为Hadoop集群所有节点安装JDK,且JDK版本不...

在文件存储 HDFS 版上使用Apache Spark

本文主要介绍如何在挂载 文件存储 HDFS 版 的Hadoop集群上安装及使用Apache Spark。前提条件 已开通 文件存储 HDFS 版 服务并创建文件系统实例和挂载点。具体操作,请参见 文件存储HDFS版快速入门。已为Hadoop集群所有节点安装JDK,且JDK...

Spark对接DataHub

本文介绍如何在E-MapReduce的Hadoop集群,运行Spark作业消费DataHub数据、统计数据个数并打印出来。Spark Streaming消费DataHub 准备工作 使用DataHub的订阅功能订阅Topic,详细信息请参见 创建订阅。消费DataHub数据 运行Spark Streaming...

从自建HDFS迁移数据

自建Hadoop集群数据迁移 阿里云ECS自建Hadoop集群和文件引擎处于相同VPC网络环境时,可以直接通过VPC网络迁移数据到文件引擎。迁移命令如下所示:hadoop distcp-m 1000-bandwidth 30 hdfs:/oldcluster:8020/user/hive/warehouse hdfs:/${...

自建Hadoop数据迁移到阿里云E-MapReduce

客户在IDC或者公有云环境自建Hadoop集群,数据集中保存在HDFS文件系统用于数据分析任务。客户在决定上云之后,会将自建Hadoop集群的数据迁移到阿里云自建Hadoop集群或者EMR集群。本实践方案提供安全和低成本的HDFS数据迁移方案。适用场景 ...

搭建与管理(基于Hadoop

通过MaxCompute与Hadoop构建湖仓一体方案旨在实现对海量数据的统一管理、存储和分析,提供了一个既能处理结构化...相关文档 基于Hadoop集群支持Delta Lake或Hudi存储机制的湖仓一体方案,请参见 基于Hadoop集群支持Delta Lake或Hudi存储机制。

弹性伸缩概述

使用方式 集群类型 相关文档 DataLake、Dataflow、OLAP和Custom集群 添加弹性伸缩规则 查看弹性伸缩活动 可视化弹性成本分析 查看集群资源概览 Hadoop集群 配置弹性伸缩(仅Hadoop集群类型)开启或关闭弹性伸缩(仅Hadoop集群类型)查看...

MaxCompute+Hadoop搭建实践

准备Hadoop数据源 创建Hadoop集群,具体操作请参见 开通阿里云EMR服务。进入Hive准备数据。使用Workbench方式登录集群主节点后,在终端界面输入如下命令:[has@emr-header-1 root]$hive-创建库 create database if not exists myhive;切换...

准备工作

环境准备 已创建阿里云E-MapReduce的Hadoop集群。具体操作,请参见 创建集群。已下载E-MapReduce的最新 SDK,SDK包的名称格式为emr-datasources_shaded_*.jar,emr-datasources_shaded_*.jar中包含Tablestore相关的Spark批流Source和Sink。...

设置Dataphin实例的计算引擎为Hadoop

如下图所示:已创建集群:可以通过E-MapReduce 5.x Hadoop集群的详情页查看所创建的集群存储类型。如下图所示:NameNode Hadoop支持添加同集群多个HDFS地址,只要有一个地址校验成功,即可完成元数据采集。例如 host=192.xxx.xx.xxx,...

使用Druid

对于独立的E-MapReduce Druid集群,如果您需要存放索引数据至一个Hadoop集群的HDFS,请设置两个集群的连通性(详情请参见 与Hadoop集群交互)。在E-MapReduce Druid 配置 页面的 common.runtime 页签,配置如下参数。参数 描述 druid....

Spark对接Kafka

本文介绍如何在E-MapReduce的Hadoop集群运行Spark Streaming作业,处理Kafka集群的数据。背景信息 E-MapReduce上的Hadoop集群和Kafka集群都是基于纯开源软件,相关编程使用方法可参见官方相应文档。Spark官方文档:streaming-kafka-...

什么是EMR on ECS

与自建Hadoop集群对比 开源大数据开发平台EMR与自建Hadoop集群的优势对比如下表所示。对比项 阿里云EMR 自建Hadoop集群 成本 支持按量和包年包月付费方式,集群资源支持灵活调整,数据分层存储,资源使用率高。无额外软件License费用。需...

数据源

本文将解答与数据源相关的问题。Q:Databricks数据洞察的支持哪些数据源?目前支持读写阿里云对象存储(OSS)的数据。Q:是否支持当前的DDI集群访问其他集群的HDFS数据?支持访问同账号下的EMR Hadoop集群上的HDFS数据。

测试环境

场景三:1 TB测试数据下DLA Spark+用户自建Hadoop集群与自建Hadoop+Spark性能对比 场景说明:使用自建Spark和DLA Spark分别访问自建Hadoop集群,运行Terasort 1 TB基准测试,对它们的耗时进行对比分析。DLA Spark+OSS配置如下:配置名称 ...

Gateway节点运行Flume进行数据同步

在Gateway节点运行Flume可以避免对E-MapReduce Hadoop集群产生影响。使用Gateway节点部署Flume Agent的基本数据流如下图所示。环境准备 本示例在华北1(杭州)进行测试,版本选择EMR-3.17.0。创建Hadoop集群,在 可选服务 中选择 Flume。...

快捷模式与安全模式差异比对

说明 Hadoop用户拥有Hadoop集群的所有权限,请谨慎授权。适用于对任务执行者数据权限无强管控要求的工作空间。安全模式 用于实现更具安全性的数据权限管理。使用该模式绑定EMR引擎时,阿里云主账号或RAM用户在下发代码的同时,DataWorks会...

配置自建RDS

本文介绍如何配置自建的阿里云RDS,作为E-MapReduce(简称EMR)上DataLake集群、Custom集群或Hadoop集群的元数据。前提条件 已购买RDS MySQL实例(EMR所有版本均支持MySQL 5.7,仅EMR-3.35.0以上版本、EMR-5.0.0以上版本同时支持MySQL 5.7...

从OSS迁移数据

搭建Hadoop集群。建议您使用的Hadoop版本不低于2.7.3,本文档中使用的Hadoop版本为Apache Hadoop 2.7.3,修改Hadoop 配置信息,详情参见 使用开源HDFS客户端访问。在Hadoop集群所有节点上安装JDK,本操作要求JDK版本不低于1.8。在Hadoop...

扩容磁盘

Hadoop集群类型中通过弹性伸缩模块创建的弹性伸缩组(创建详情请参见 配置弹性伸缩(仅Hadoop集群类型)),无法进行该操作。注意事项 云盘扩容后无法缩容,建议您合理规划存储空间。操作步骤 进入节点管理页面。登录EMR on ECS控制台。在...

自建Hive数据仓库迁移到阿里云E-MapReduce

客户在IDC或者公有云环境自建Hadoop集群,数据集中保存在HDFS文件系统,同时借助Hive进行常见的ETL任务。客户在决策上云之后,会将自建Hadoop集群的数据迁移到阿里云自建Hadoop或者EMR。方案优势 易用性 您可以简单选择所需ECS机型(CPU、...

缩容集群

Hadoop集群类型中通过弹性伸缩模块创建的弹性伸缩组(创建详情请参见 配置弹性伸缩(仅Hadoop集群类型)),无法进行该操作。操作步骤 进入节点管理页面。登录 E-MapReduce控制台。在顶部菜单栏处,根据实际情况选择地域 和资源组。单击...

创建Hadoop计算源

若您需开启Impala任务进行快速查询和分析数据,请您提前在Hadoop集群上部署Impala(Impala v2.5及以上版本)。在E-MapReduce5.x计算引擎下,若您需要使用基于OSS创建的Hive外部表进行离线集成。您需要进行相关配置后,才可以正常使用。配置...

在文件存储 HDFS 版上使用Apache HBase

步骤一:Hadoop集群挂载 文件存储 HDFS 版 实例 在Hadoop集群中配置 文件存储 HDFS 版 实例。具体操作,请参见 挂载文件存储 HDFS 版文件系统。步骤二:配置Apache HBase 将Hadoop中配置的core-site.xml复制到${HBASE_HOME}/conf目录下。cp...

测试结果

1 TB测试数据下DLA Spark+用户自建Hadoop集群与自建Hadoop+Spark性能对比结果 集群类型 运行Terasort基准测试集耗时(min)DLA Spark+OSS 43.5 自建Hadoop+Spark 44.8 您可以将自建Hadoop和DLA Spark混合使用,自建Hadoop集群在高峰期需要...

Hive Metastore使用加密文件访问RDS

DataLake或Custom集群类型 sudo mv/tmp/hive.jceks$HIVE_CONF_DIR sudo chown hive$HIVE_CONF_DIR/hive.jceks Hadoop集群类型 sudo mv/tmp/hive.jceks$HIVE_CONF_DIR sudo chown hadoop$HIVE_CONF_DIR/hive.jceks 在EMR控制台目标集群Hive...
< 1 2 3 4 ... 200 >
共有200页 跳转至: GO
新人特惠 爆款特惠 最新活动 免费试用