hadoop的etl工具

_相关内容

非EMR集群接入OSS-HDFS服务快速入门

JindoSDK为Apache Hadoop的计算分析应用(例如MapReduce、Hive、Spark、Flink等)提供了访问HDFS服务的能力。本文介绍如何通过在ECS实例中部署JindoSDK,然后完成OSS-HDFS服务快速入门相关操作。前提条件 已创建ECS实例。具体步骤,请参见 ...

使用Druid

EMR-3.11.0及其后续版本...将Hadoop集群的hosts写入到E-MapReduce Druid集群的hosts列表中,注意Hadoop集群的hostname应采用长名形式,如emr-header-1.cluster-xxxxxxxx,且最好将Hadoop的hosts放在本集群hosts之后,例如:.10.157.*.*emr-as....

阿里云OSS-HDFS服务(JindoFS 服务)Endpoint配置

您可以在Hadoop的 core-site.xml 中配置Bucket级别的Endpoint指向OSS-HDFS服务的Endpoint。property><name>fs.oss.bucket.XXX.endpoint</name><value>cn-xxx.oss-dls.aliyuncs.com</value> </property> </configuration>说明...

使用限制

本文主要介绍 文件存储 HDFS 版 的产品规格限制、协议功能限制、Hadoop fs命令限制及API限制。文件系统限制 限制项 限制说明 每个账号在单个地域内可创建...更多有关开源Hadoop的信息,请参见 Hadoop文档。API限制 不支持Web HDFS REST API。

HDFS常见命令介绍

关于Apache Hadoop的详细介绍,请参见 Apache Hadoop官网。mkdir 在HDFS文件系统中创建目录。语法 hadoop fs-mkdir[path2].[pathn]示例:在HDFS文件系统中,创建 dir 目录。hadoop fs-mkdir dir 您可以通过 hadoop fs-ls/命令查看创建的...

在非EMR集群中部署JindoSDK

vim<HADOOP_HOME>/etc/hadoop/core-site.xml 将OSS/OSS-HDFS实现类配置到Hadoop的 core-site.xml 中。property><name>fs.AbstractFileSystem.oss.impl</name><value>...

技术架构选型

其中,DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。DataWorks则包括数据开发、数据质量、数据安全、数据管理等在内的一系列功能。icmsDocProps={'productMethod':'created','...

在文件存储 HDFS 版上使用Apache Flink

本文介绍如何在挂载 文件存储 HDFS 版 的Hadoop集群上安装及使用Apache Flink。前提条件 已开通 文件存储 HDFS 版 服务并创建文件系统实例和挂载点。具体操作,请参见 文件存储HDFS版快速入门。已为Hadoop集群所有节点安装JDK,且JDK版本不...

配置流程

数据库传输服务DTS为数据同步过程提供了流式的ETL功能,您可以在源库和目标库之间添加各种转换组件,实现丰富的转换操作,并将处理后的数据实时写入目标库。例如将两张流表做JOIN操作后形成一张大表,写入目标库;或者给源表新增一个字段,...

在文件存储 HDFS 版上使用Apache Spark

本文主要介绍如何在挂载 文件存储 HDFS 版 的Hadoop集群上安装及使用Apache Spark。前提条件 已开通 文件存储 HDFS 版 服务并创建文件系统实例和挂载点。具体操作,请参见 文件存储HDFS版快速入门。已为Hadoop集群所有节点安装JDK,且JDK...

查询ETL任务详情

ErrCode String InvalidJobId 传入的ETL任务ID错误,找不到对应的任务。PageNumber Integer 1 当前实例状态列表的页码,默认为1。PageRecordCount Integer 20 当前分页的记录数。TotalRecordCount Integer 200 记录的总行数。ErrMessage ...

漏洞公告|Apache Hadoop FileUtil.unTar命令注入漏洞

由于Apache Hadoop的FileUtil.unTar API在传递Shell之前未对输入的文件名进行转义,攻击者可以利用该漏洞注入任意命令,从而对集群造成破坏。漏洞影响 漏洞影响的Hadoop版本:2.0.0<= ApacheHadoop<= 2.10.1 3.0.0-alpha <= ApacheHadoop...

HDFS

Hadoop的 core-site.xml 配置文件中,fs.defaultFS 参数为HDFS服务的端口号。在集群中任意一台机器上,测试HDFS访问是否正常,执行如下命令,例如 hadoop fs-ls hdfs:/192.168.24.247:8020:hadoop fs-ls hdfs:/HDFS主节点IP:HDFS 服务...

HDFS

Hadoop的 core-site.xml 配置文件中,fs.defaultFS 参数为HDFS服务的端口号。在集群中任意一台机器上,测试HDFS访问是否正常,执行如下命令,例如 hadoop fs-ls hdfs:/192.168.24.247:8020:hadoop fs-ls hdfs:/HDFS主节点IP:HDFS 服务...

集群容灾能力

本文介绍E-MapReduce集群数据...服务容灾 Hadoop的核心组件都会进行HA部署,即有至少两个节点的服务互备,例如YARN、HDFS、Hive Server和Hive Meta。在任何一时刻,任一服务节点故障时,当前的服务节点都会自动进行切换,以保证服务不受影响。

通过RootPolicy访问

如果您不希望在每一次使用RootPolicy相关命令时重复添加选项,您可以选择以下任意方式在Hadoop的 core-site.xml 文件中添加配置项。方式一<configuration><property><name>fs.oss.endpoint</name><value><dls_endpoint></value></property>...

文件存储HDFS版

借助该SDK,Apache Hadoop的计算分析应用(如MapReduce、Hive、Spark、Flink等)可以无需修改代码和编译,直接使用文件存储HDFS版作为defaultFS,从而获得超越原始HDFS的功能和性能优势。如果您更习惯使用图形化的Web应用程序,可以使用...

概述

HoloStudio的数据开发模块与DataWorks无缝连接,提供一站式稳定高效的ETL(Extract-Transform-Load)服务,帮助您使用可视化方式周期性调度作业、创建外部表、同步外部表数据以及上传本地文件。数据开发 的核心功能如下:文件夹 用于存放并...

自定义函数开发指南

函数计算服务上的日志服务触发器对应一个日志服务的ETL Job。taskId 对于一个ETL Job,taskId是某一次确定性的函数调用标识。cursorTime 本次函数调用包括的数据中,最后一条日志到达日志服务的服务器端的unix_timestamp。source 该字段由...

Hadoop使用JindoSDK访问OSS-HDFS服务

什么是OSS-HDFS服务 通过OSS-HDFS服务,无需对现有的Hadoop、Spark大数据分析应用做任何修改。通过简单的配置即可像在原生HDFS中那样管理和访问数据,同时获得OSS无限容量、弹性扩展、更高的安全性、可靠性和可用性支撑。作为云原生数据湖...

通过RootPolicy访问OSS-HDFS

Hadoop的 core-site.xml 文件中有如下配置项:<configuration><property><name>fs.oss.endpoint</name><value><dls_endpoint></value></property></configuration>或<configuration><property><name>fs.oss.bucket.<bucket_name>....

计算源概述

Hadoop 计算设置为Hadoop的租户支持创建以下计算源:离线计算源 Hadoop计算源:绑定Hadoop计算源的项目,支持规范建模、即席查询、Hive SQL任务、通用脚本等功能。创建Hadoop计算源,请参见 创建Hadoop计算源。实时计算源 Flink 计算源:...

在文件存储 HDFS 版上使用Presto

建议您使用的Hadoop版本不低于2.7.2,本文档中使用的Hadoop版本为Apache Hadoop 2.8.5。已在集群中安装Hive。本文使用的Hive版本为2.3.7。已 下载Presto安装包 和presto-cli-xxx-executable.jar。本文使用的Presto版本为0.265.1。背景信息 ...

概述

HoloStudio的数据开发模块与DataWorks无缝连接,提供一站式稳定高效的ETL(Extract-Transform-Load)服务,帮助您使用可视化方式周期性调度作业、创建外部表、同步外部表数据以及上传本地文件。数据开发 的核心功能如下:文件夹 用于存放并...

测试环境

本次测试采用3种不同的测试场景,针对开源自建的Hadoop+Spark集群与阿里云云原生数据湖分析DLA Spark在执行Terasort基准测试的性能做了对比分析。本文档主要介绍了3种不同测试场景下的测试环境配置要求。环境配置要求 测试环境总体要求:自...

配置目标库信息

说明 您也可以在DTS控制台 ETL 页面,单击 去DMS创建流式ETL。单击左上角的,在 新增数据流 对话框中,您需在 数据流名称 配置ETL任务名称,选择 开发方式 为 DAG。单击 确认。完成数据源信息的配置,配置方法请参见 配置源库信息。完成...

配置源库信息

说明 您也可以在DTS控制台 ETL 页面,单击 去DMS创建流式ETL。单击左上角的,在 新增数据流 对话框中,您需在 数据流名称 配置ETL任务名称,选择 开发方式 为 DAG。单击 确认。在页面左侧,将 输入/维表 MySQL 节点拖拽至页面右侧画布的...

通过Flink SQL模式配置ETL任务

数据库传输服务DTS为数据同步过程提供了流式的ETL功能,您可以在源库和目标库之间添加各种转换组件,实现丰富的转换操作,并将处理后的数据实时写入目标库。例如将两张流表做JOIN操作后形成一张大表,写入目标库;或者给源表新增一个字段,...

背景信息以及准备工作

id)PARTITION BY VALUE(DATE_FORMAT(order_time,'%Y%m%d'))LIFECYCLE 30 COMMENT '' 注意事项 AnalyticDB for MySQL为主键覆盖逻辑,若整个INSERT FROM SELECT的ETL任务失败,需要整体重试。在AnalyticDB for MySQL端查询写入数据时,会有...

Flink概述

在投递的过程中可能添加数据清洗和集成的工作,例如实时构建搜索系统的索引和实时数仓中的ETL过程等。实时数据分析 实时数据分析指的是根据业务目标,从原始数据中抽取对应信息并整合的过程。例如,查看每天销量前10的商品、仓库平均周转...

ETL工作流快速体验

教程列表 DataWorks当前支持的ETL工作流模板列表如下:说明 ETL工作流模板载入 数据开发 模块后,您可通过查看 虚拟节点(业务流程第一个节点)查看案例详情。教程(点击链接快速体验)涉及产品 涉及模块 DataWorks版本要求 教程描述 网站...

在文件存储 HDFS 版上使用Apache Tez

本文主要介绍在挂载 文件存储 HDFS 版 的Hadoop集群上安装及使用Apache Tez。前提条件 已开通 文件存储 HDFS 版 服务并创建文件系统实例和挂载点。具体操作,请参见 文件存储HDFS版快速入门。已为Hadoop集群所有节点安装JDK,且JDK版本不...

创建Hadoop计算源

DLF获取方式 重要 DLF获取方式仅支持计算设置为E-MapReduce5.x Hadoop的集群。使用DLF方式获取元数据,请先在配置文件中上传hive-site.xml配置文件。参数 说明 Endpoint 填写集群在DLF数据中心所在地域的Endpoint。如何获取,请参见 DLF ...

DataWorks作业调度

使用DataWorks可以使云原生数据仓库PostgreSQL版获得任务开发、任务依赖关系管理、任务调度、任务运维等全方位强大的能力,进一步增强分析型数据库PostgreSQL版的ETL能力。本文将介绍如何使用DataWorks来调度云原生数据仓库PostgreSQL版的...

快捷模式与安全模式差异比对

使用该模式绑定EMR引擎时,阿里云主账号或RAM用户在DataWorks运行代码或自动调度任务,都只是下发代码至EMR集群,实际运行的身份为集群内的Hadoop用户。无法做到细粒度的权限控制。说明 Hadoop用户拥有Hadoop集群的所有权限,请谨慎授权。...

应用场景

在投递的过程中可能添加数据清洗和集成的工作,例如实时构建搜索系统的索引、实时数仓中的ETL过程等。实时数据分析 数据分析指的是根据业务目标,从原始数据中抽取对应信息并整合的过程。例如,查看每天销量前10的商品、仓库平均周转时间、...

通过ES-Hadoop实现Spark读写阿里云Elasticsearch数据

本文介绍如何通过ES-Hadoop实现Hadoop的Spark服务读写阿里云Elasticsearch数据。准备工作 创建阿里云Elasticsearch实例,并开启自动创建索引功能。具体操作步骤请参见 创建阿里云Elasticsearch实例 和 配置YML参数。本文以6.7.0版本的实例...

选型配置说明

E-MapReduce选型 Master节点选型 Master节点主要部署Hadoop的Master进程。例如,NameNode和ResourceManager等。生产集群建议打开高可用HA,E-MapReduce的HDFS、YARN、Hive和HBase等组件均已实现HA。生产集群建议在创建集群时开启高可用。...

配置OSS/OSS-HDFS Credential Provider

基本配置方式 您可以将OSS或OSS-HDFS的AccessKey ID、AccessKey Secret、Endpoint预先配置在Hadoop的core-site.xml中。EMR集群配置具体步骤为:在Hadoop-Common服务配置页面,单击 core-site.xml 页签。单击 新增配置项,新增配置项 fs.oss...

配置OSS/OSS-HDFS Credential Provider

基本配置方式 您可以将OSS或OSS-HDFS的AccessKey ID、AccessKey Secret、Endpoint预先配置在Hadoop的core-site.xml中。EMR集群配置具体步骤为:在Hadoop-Common服务配置页面,单击 core-site.xml 页签。单击 新增配置项,新增配置项 fs.oss...
< 1 2 3 4 ... 200 >
共有200页 跳转至: GO
新人特惠 爆款特惠 最新活动 免费试用