大数据etl工具-大数据etl工具文档介绍内容-移动阿里云

使用Kettle调度MaxCompute

MaxCompute支持您通过ETL工具Kettle实现MaxCompute作业调度。您可以通过拖拽控件的方式，方便地定义数据传输的拓扑结构。本文为您介绍如何通过MaxCompute JDBC驱动，连接Kettle和MaxCompute项目并调度作业。背景信息 Kettle是一款开源的ETL...

什么是ETL

数据传输服务DTS提供的流式数据ETL（Extract Transform Load）功能是一种高效的实时数据加工工具。ETL支持通过可视化拖拉拽操作、Flink SQL语句配置任务，并结合DTS的高效流数据复制能力，可以实现流式数据的抽取、数据转换和加工、数据...

流式ETL

数据传输服务DTS提供的流式数据ETL（Extract Transform Load）功能是一种高效的实时数据加工工具。ETL支持通过可视化拖拉拽操作、Flink SQL语句配置任务，并结合DTS的高效流数据复制能力，可以实现流式数据的抽取、数据转换和加工、数据...

产品生态

DM（达梦）数据源 Milvus数据源 TiDB数据源 DRDS（PolarDB-X 1.0）数据源 MongoDB数据源 TSDB数据源 Elasticsearch数据源 MySQL数据源 Vertica数据源 FTP数据源 OpenSearch数据源 TOS数据源 GBase8a数据源 Oracle数据源 HBase数据源 Graph ...

数据库节点

支持创建数据库节点数据源数据源类型数据源简介 MySQL MySQL是用于存储和处理数据的关系型数据库管理系统（RDBMS），是最流行的关系型数据库管理系统之一，其体积小、速度快、总体拥有成本低。更多介绍请参见 MySQL。SQL Server SQL ...

数据分析作业

MaxCompute是适用于数据分析场景的企业级SaaS模式云数据仓库，支持在多种工具上使用MaxCompute运行大数据计算分析作业。如果您需要进行简单的查询等数据分析作业，推荐您使用SQL查询或DataWorks的临时查询等工具，高效便捷地完成数据分析...

AnalyticDB for MySQL 2.0数据导入

高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准，通过标准SQL和常用BI工具、以及ETL工具平台即可轻松使用。在计算引擎和优化器上做了大量的改进和优化，性能更高。完全部署在阿里云数据库管控平台上，更加稳定、安全。数据迁移场景 ...

在EMR集群运行TPC-DS Benchmark

TPC-DS官方工具只包含SQL生成器以及单机版数据生成工具，并不适合大数据场景，所以本文教程中使用的工具和集群信息如下：Hive TPC-DS Benchmark测试工具。该工具是业界最常用的测试工具，是由Hortonworks公司开发，支持使用Hive和Spark运行...

从Amazon RDS Oracle迁移至PolarDB PostgreSQL版...

由于全量数据迁移会并发执行INSERT操作，导致目标数据库的表产生碎片，因此全量迁移完成后目标数据库的表存储空间会比源实例的表存储空间大。DTS会尝试恢复七天之内迁移失败任务。因此业务切换至目标实例前，请务必结束或释放该任务，或者...

产品优势

简单易用 AnalyticDB for MySQL 高度兼容MySQL协议和SQL:92、SQL:99、SQL:2003标准，通过标准SQL和常用BI工具、以及ETL工具平台即可轻松使用。AnalyticDB for MySQL 提供多种数据导入或导出方式，及作业开发、数据可视化的一站式服务...

数据分析概述

功能概述 SQL查询 SQL查询是使用标准的SQL语句，来查询和分析存储在MaxCompute中的大数据，详情请参见 SQL查询（旧版）。您可以通过编写SQL语句，对有查询权限的数据源进行快速的数据查询与分析操作，详情请参见 SQL查询（旧版）。...

计算组

例如，您可以分配一个计算组用来执行查询分析，另外一个计算组用来做ETL数据处理，从而保障查询和ETL互不干扰，各自按需使用隔离的计算资源。跨部门协同分析：支持多个业务部门能够共享数据资产，为各业务部门分配不同的计算组进行查询分析...

功能特性

数据分析 SQL查询第三方工具数据库管理工具通过数据库管理工具连接MaxCompute，目前主要支持DBeaver、DataGrip、SQL Workbench/J。数据库管理工具 ETL工具连接通过ETL工具连接MaxCompute并进行开发作业调度，目前主要支持Kettle、...

应用场景

Hologres兼容PostgreSQL生态，是新一代的阿里云实时数仓产品，与大数据生态无缝连接，支持实时与离线数据，对接第三方BI工具，实现可视化分析业务。本文为您介绍基于Hologres核心功能的典型应用场景。Hologres的典型应用场景如下：搭建...

基于DLF、RDS或Flink、OSS支持Delta Lake或Hudi存储...

数据湖存储与管理对象存储OSS 数据湖构建DLF 将在线数据库中的源数据引入数据湖时，OSS会作为数据湖的统一存储，存储机制包含Delta Lake和Hudi两种。同时，DLF采用元数据管理功能管理元数据库和元数据表。数据湖探索与分析 MaxCompute ...

上海新能源汽车车辆基础数据

基于Lindorm HDFS大数据存储方案，满足海量数据ETL和分析需求。计算引擎可以满足在线交互式查询、流处理、批处理、机器学习等业务诉求。客户价值 Lindorm宽表引擎批量写入、高效压缩，线性扩展等特性使得数据采集入库性能更高、成本更低，...

数据上云工具

Kettle（Tunnel通道系列）Kettle是一款开源的ETL工具，纯Java实现，可以在Windows、Unix和Linux上运行，提供图形化的操作界面，可以通过拖拽控件的方式，方便地定义数据传输的拓扑。详情请参见基于Kettle的MaxCompute插件实现数据上云。...

云数据库MongoDB版（分片集群架构）同步至云数据库...

数据传输服务DTS（Data Transmission Service）支持将MongoDB（分片集群架构）的数据同步至MongoDB（副本集架构或分片集群架构）。本文以云数据库MongoDB版实例间的数据同步为例，为您介绍操作步骤。前提条件已创建目标云数据库MongoDB...

Kyuubi

使用场景交互式分析：利用Kyuubi可以构建企业级分析平台，用于对大数据进行交互式可视化分析，支持常见的计算框架。Kyuubi支持JDBC和ODBC接口，您可以直接通过SQL或通过BI工具来访问Kyuubi并高效地运行查询。Kyuubi可以在用户级别缓存后台...

分布式框架Ray

云原生数据仓库 AnalyticDB MySQL 版推出AnalyticDB Ray，支持多模数据ETL与ML一体化，提升AI流水线效率，实现从数据到智能决策的无缝转换。什么是AnalyticDB Ray 开源 Ray 是一款专为 AI 与高性能计算设计的分布式计算框架，通过简洁的 ...

什么是数据管理DMS

AnalyticDB for MySQL 支持高吞吐的数据实时增删改、低延时地实时分析复杂 ETL（Extract Transform Load），兼容上下游生态工具，可用于构建企业级报表系统、数据仓库和数据服务引擎。AnalyticDB for PostgreSQL：云原生数据仓库...

目标库的注意事项及限制

若您需要同步部分字段，可以使用ETL功能过滤大字段的数据。请避免多个DTS任务同步到同一个目标函数，建议不同任务使用不同的函数进行数据隔离，否则可能会造成目标端数据混乱。Doris 在DTS实例运行过程中，若在Doris数据库中增加BE...

EMR Hive单表离线同步至MaxCompute

背景信息 Hive是基于Hadoop的一个数据仓库工具，用来进行数据的提取、转化、加载，可以存储、查询和分析存储在Hadoop中的大规模数据。Hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转换成...

RDS MySQL同步至PolarDB-X 1.0

本文介绍如何使用数据传输服务DTS（Data Transmission Service），将 RDS MySQL 的数据同步至 PolarDB-X 1.0。前提条件请确保待 RDS MySQL 实例中待同步数据的字符集不是 utf8mb3。已创建存储空间大于源 RDS MySQL 实例已占用存储空间的...

数据导入

云数据库 SelectDB 版支持多样化的数据导入方式，涵盖原生接口与生态工具，满足从实时流数据到离线批处理的多场景需求。本文为您介绍数据导入到 SelectDB 的核心接口与工具。导入选型建议阿里云生态源数据：DTS、DataWorks 非阿里云生态...

应用场景

云原生数据仓库AnalyticDB MySQL版为千万家企业级客户提供了数据处理ETL、实时在线分析、核心报表、大屏和监控能力，为广大商家和消费者提供稳定的离线和在线数据服务。本文介绍云原生数据仓库AnalyticDB MySQL版的五个使用场景：实时数...

创建集群

Spark：是通用的分布式大数据处理引擎，提供了ETL、离线批处理和数据建模等能力。重要创建Spark集群后，如果您需要关联集群，则所选产品版本的大版本号需要和关联的Shuffle Service集群大版本号一致。例如，EMR-5.x-ack版本的Spark集群...

自动将PolarDB MySQL版数据同步至PolarSearch

您无需额外部署和维护ETL工具，即可实现数据同步，并将搜索分析负载与在线事务处理负载隔离。说明当前功能目前正处于灰度阶段。如您有相关需求，请提交工单与我们联系，以便为您开启该功能。功能简介 AutoETL是 PolarDB MySQL版内置的...

产品形态选型

阿里云开放的大数据平台 E‑MapReduce(EMR)提供了多种产品形态，以满足不同用户的业务需求。根据部署方式可分为 EMR Serverless Spark、EMR Serverless StarRocks、EMR on ECS 和 EMR on ACK。为帮助用户选择合适的产品，以下整理了各产品...

用户价值

数据开发更简单：平台提供的各种工具产品能够极大的简化数据开发过程，缩短数据治理周期，降低数据治理成本。通过标准化、精细化、规格化的智能数据生产流程，完成流水线式的数据生产作业，提升数据资源生产效率、消除数据供应品质差异。...

产品系列

适用场景包含构建海量数据实时写入和复杂ETL计算的实时数据仓库、大数据量的复杂查询、历史数据分析、日志分析等业务场景。数仓版弹性模式包括两种形态：单机版和集群版。单机版单机版即单节点部署，不具备分布式能力，不提供高可用服务...

Dynamic Table介绍

离线ETL重复性调度，时效性差：使用离线计算引擎（例如Hive）ETL是常见的数据加工手段，这种方案通常适用于高吞吐的大数据量加工，计算数据量大，缺乏实时计算的能力，如果要提高加工效率，通常是将数据通过周期性调度的方式，重复计算，...

Spark

使用场景离线ETL 离线ETL主要应用于数据仓库，对大规模的数据进行抽取（Extract）、转换（Transform）和加载（Load），其特点是数据量大，耗时较长，通常设置为定时任务执行。在线数据分析（OLAP）在线数据分析主要应用于BI（Business ...

什么是云原生数据仓库AnalyticDB MySQL版

类型数据源关系型数据库云数据库RDS MySQL 云数据库RDS SQL Server 云原生数据库PolarDB MySQL版云原生数据库PolarDB分布式版（简称“PolarDB-X”）自建MySQL数据库自建Oracle数据库非关系型数据库云数据库MongoDB 云原生多模数据库...

DeltaLake

Delta Lake以数据为中心，围绕数据流走向（数据从流入数据湖、数据组织管理和数据查询到流出数据湖）推出了一系列功能特性，协助您搭配第三方上下游工具，搭建快捷、易用和安全的数据湖。背景信息通常的数据湖方案是选取大数据存储引擎...

产品概述

支持主流BI、ETL工具。通过PostGIS插件支持地理信息数据分析，MADlib库内置超过300个机器学习算法库。数据互联互通。支持通过DTS、DataWorks等工具，实现多种数据源的实时同步与批量导入；支持高并发访问OSS，构建数据湖分析。获取更多信息...

视频个性化推荐（协同过滤）

注意事项本案例提供的数据仅作为阿里云大数据开发治理平台DataWorks数据应用体验使用，所有数据均为模拟数据。本案例可能会产生少量DataWorks调度费用、MaxCompute计算与存储费用和PAI计算费用。收费详情请参见 DataWorks计费逻辑、...

支持的数据源

类别数据源导入方式文档链接消息队列 Kafka 数据同步通过数据同步功能同步Kafka数据（推荐）日志类数据日志服务（SLS）数据同步通过数据同步功能同步SLS数据（推荐）大数据 Hive 数据迁移 Hive数据导入存储 OSS 元数据发现通过...

创建CDH Spark节点

Spark是一个通用的大数据分析引擎，具有高性能、易用和普遍性等特点，可用于进行复杂的内存分析，构建大型、低延迟的数据分析应用。...大规模ETL任务：进行大数据集的抽取、转换和加载，为数据仓库或其他存储系统准备数据。

PolarDB MySQL版同步至云数据库SelectDB版

云数据库SelectDB版支持亚秒级响应海量数据查询、万级高并发点查询以及高吞吐复杂分析。数据传输服务DTS（Data Transmission Service）可以帮助您将 PolarDB MySQL版集群同步至云数据库SelectDB版，满足您的海量数据分析需求。前提条件已...