数据网络出现e-数据网络出现e文档介绍内容-移动阿里云

权限设置

E-MapReduce中如同时开启引擎（如Hive/Spark/Presto/Impala）的权限控制，则通过这些引擎访问数据时，如用户未设置权限，则无法访问对应数据。如何开启EMR中DLF-AUTH权限，请参考 EMR DLF-AUTH。说明权限关闭后，访问元数据和数据将不再...

网络方案概述

VPC网络连接：VPC网络是一种虚拟化的私有网络环境，您可以在阿里云VPC私有网络环境中创建虚拟网络、子网、路由表等网络设备，并且可以通过VPN或专线等方式将VPC连接到阿里云的VPC中，构建私有网络环境。适用于对网络安全有较高要求的场景，...

网络方案概述

VPC网络连接：VPC网络是一种虚拟化的私有网络环境，您可以在阿里云VPC私有网络环境中创建虚拟网络、子网、路由表等网络设备，并且可以通过VPN或专线等方式将VPC连接到阿里云的VPC中，构建私有网络环境。适用于对网络安全有较高要求的场景，...

全增量同步任务常见问题

PolarDB数据源网络联通性测试失败怎么办？OceanBase数据源网络联通性测试失败怎么办？MySQL数据源网络联通性测试失败怎么办？全增量实时至MaxCompute时，数据源被置灰了没法选择怎么办？实时任务，运行报错：...

约束和限制

目录下面采样最新和最老的文件，每个文件读取前1000行元数据发现SLS数据源发现历史投递数据如果投递中途修改了分区格式，不会发现修改前的数据一键建仓/多库合并支持的数据源网络类型 VPC 一键建仓/多库合并支持的数据源 PolarDB MySQL ...

Paimon概述

目前阿里云开源大数据平台E-MapReduce常见的计算引擎（例如Flink、Spark、Hive或Trino）都与Paimon有着较为完善的集成度。您可以借助Apache Paimon快速地在HDFS或者云端OSS上构建自己的数据湖存储服务，并接入上述计算引擎实现数据湖的分析...

网络连通方案

为了保证DataWorks中数据同步、数据调度等任务的顺利操作，还需要确保资源组绑定的VPC网络与数据源（目标网络环境下的数据库、数据服务或其他数据）之间的连通性，本文为您提供了不同网络环境下的网络连通解决方案。背景信息在DataWorks...

网络连通方案

为了保证DataWorks中数据同步、数据调度等任务的顺利操作，还需要确保资源组绑定的VPC网络与数据源（目标网络环境下的数据库、数据服务或其他数据）之间的连通性，本文为您提供了不同网络环境下的网络连通解决方案。背景信息在DataWorks...

数据传输作业：数据集成

离线同步离线（批量）的数据通道通过定义数据来源和去向的数据源和数据集，提供一套抽象化的数据抽取插件（Reader）、数据写入插件（Writer），并基于此框架设计一套简化版的中间数据传输格式，从而实现任意结构化、半结构化数据源之间...

术语

全球数据库网络（Global Database Network）全球数据库网络（GDN）是由分布在全球不同地域的多个 PolarDB 数据库集群组成的一张网络。网络中所有集群的数据保持同步，完全一致。更多详情，请参见创建与删除全球数据库网络。主集群...

通过DataWorks导入数据

DataWorks提供了可视化的数据导入方式，相对于通过外表导入，DataWorks导入的方式更为轻量化，适合数据量相对较小的数据导入场景。本文介绍如何通过DataWorks将 PolarDB分布式版（原DRDS）的数据导入至云原生数据仓库 AnalyticDB MySQL 版...

系统管理

上传数据至MaxCompute引擎：支持使用 Serverless资源组（推荐）、旧版资源组（独享调度资源组或独享数据集成资源组），且需确保数据上传任务使用的数据源与所选资源组网络连通。所选Serverless资源组和独享资源组需绑定至待接收数据的表...

基于Hadoop集群支持Delta Lake或Hudi存储机制

Delta Lake和Hudi是数据湖方案中常用的存储机制，为数据湖提供流处理、批处理能力。MaxCompute基于开源的Hadoop集群提供了支持Delta或Hudi存储机制的湖仓一体架构。您可以通过MaxCompute查询到实时数据，即时洞察业务数据变化。背景信息 ...

新增和使用独享数据集成资源组

由于执行数据同步任务流程的要求，需要保证资源组可以访问数据源（来源数据源和目标数据源）所在的网络，且不会因白名单限制等原因不能访问数据源。因此，您需要在保证网络连通的前提下，再使用数据集成，如果网络不通，会导致数据同步任务...

跨阿里云主账号访问

本文以不同阿里云主账号下的DataWorks资源组与数据源（目标网络环境下的数据库、数据服务或其他数据）为例，介绍如何进行网络连通。背景信息网络连通方案选择取决于数据源与DataWorks工作空间（资源组）间的环境关系。详情请参见网络连通...

跨阿里云主账号访问

本文以不同阿里云主账号下的DataWorks资源组与数据源（目标网络环境下的数据库、数据服务或其他数据）为例，介绍如何进行网络连通。背景信息网络连通方案选择取决于数据源与DataWorks工作空间（资源组）间的环境关系。详情请参见网络连通...

使用公共资源组

网络连通方案 DataWorks资源组本质上为一组阿里云ECS实例，在运行数据集成、数据开发等任务时，需保障资源组与数据源之间的网络是连通的，且不会因为白名单等特殊安全访问设置阻断资源组与数据源之间的网络连通性。网络连通公共资源组支持...

通用参考：添加路由

如果添加路由后，仍然存在网络连通问题，请根据如下因素进行排查：如果独享资源组访问的是本地IDC数据源，或者跨账号访问数据源，请先参考配置资源组与网络连通进行网络连通，再为独享资源组绑定与数据库网络连通的VPC。如果您的数据源已...

ClickHouse概述

开源大数据平台E-MapReduce（简称EMR）的ClickHouse提供了开源OLAP分析引擎ClickHouse的云上托管服务。EMR ClickHouse完全兼容开源版本的产品特性，同时提供集群快速部署、集群管理、扩容、缩容和监控告警等云上产品功能，并且在开源的基础...

在EMR上使用Sqoop与数据库同步数据时的网络配置

如果您的E-MapReduce（EMR）集群需要和集群之外的数据库同步数据，确保网络是联通的。本文以RDS、ECS自建和云下私有数据库三种情况为例，分别介绍如何配置网络。云数据库RDS Sqoop是用map任务同步数据，可以在任意节点上运行，而Sqoop任务...

数据迁移

本文为您介绍如何迁移自建Kudu集群的数据到E-MapReduce上的Hadoop集群。前提条件您已自建Kudu集群。已创建E-MapReduce的Hadoop集群，并选择了Kudu服务，详情请参见创建集群。背景信息 EMR Kudu支持社区1.10以及1.11版本，可以使用社区...

新增和使用独享调度资源组

说明 DataWorks工作空间和数据源不在同一地域或不在同一个阿里云主账号下，您还需通过 VPN网关或高速通道等方式，将独享资源组绑定的VPC与数据源所在VPC网络打通，并手动添加路由指向目标数据库IP，保障两个网络间可达。详情请参见配置...

异构数据源访问

若您需要通过 AnalyticDB PostgreSQL版访问外部异构数据源（HDFS、Hive和JDBC）时，可以使用异构数据源访问功能将外部数据转换为 AnalyticDB PostgreSQL版数据库优化后的格式进行查询和分析。功能说明外部数据源管理提供高性能的结构化...

实验介绍

重要该案例是基于DataWorks使用开源大数据平台 E-MapReduce、云原生大数据计算服务MaxCompute、开源全托管服务EMR Serverless StarRocks 或开源全托管服务EMR Serverless Spark 这四种产品其一为数据源操作的，确保拥有其一即可。...

导入概述

导入事务可以保证一批次内的数据原子生效，不会出现部分数据写入的情况。每个导入作业都会有一个Label。Label是在一个数据库（Database）下唯一的，用于唯一标识一个导入作业。Label可由用户指定或系统自动生成。Label用于保证对应的导入...

快速体验

DataWorks为您提供智能建模、数据清洗、周期调度运维、数据治理等一站式大数据开发管理能力，本文以一个零售电商行业的数仓搭建实验为例，为您介绍DataWorks在数仓搭建过程中的技术选型、技术流程以及流程实现，帮助您深入了解阿里云...

产品优势

全密态 PolarDB 提供全密态数据库，可以有效杜绝云数据库服务（或应用服务等数据拥有者以外的任何人）接触到用户的明文数据，避免云端数据发生泄漏，且能够防止研发运维窃取数据、无惧数据库账号泄露。以 PolarDB MySQL版为例，请参考全...

源库连接性检查

网络互通问题经过上述排查后仍然无法通过源库连接性检查，可能是DTS服务器与源数据库网络互通问题。您可以通过钉钉（钉钉通讯客户端下载地址）进入到DTS客户交流钉钉群（群号：68325004196或68640008972），进行咨询。

目标数据库连接性检查

为保障数据迁移任务的顺利执行，在预检查阶段检查DTS服务器是否能够连通要迁移的目标数据库。本文将介绍目标数据库连接性检查...网络互通问题经过上述排查后仍然无法通过目标数据库连接性检查，可能是DTS服务器与目标数据库网络互通问题。

应用场景

阿里云开源大数据平台E-MapReduce（简称EMR）具有广泛的应用场景。本文为您介绍EMR的主要应用场景。数据湖场景 DataLake集群类型提供了数据湖分析场景所需的服务和相关湖格式，包括Hadoop、OSS-HDFS、Hive、Spark、Presto等。通过选择OSS-...

安全白皮书

云数据库Tair（兼容 Redis）从网络、存储、备份、容灾等方面，提供全面的安全加固功能来保障您的数据安全。包括但不限于：网络：白名单、VPC网络、TLS加密等。存储：开启透明数据加密TDE、自动或手动备份等。容灾：自动主备切换、同城容...

使用DataWorks

MaxCompute支持通过DataWorks的数据集成功能将MaxCompute中的数据以离线方式导出至其他数据源。当您需要将MaxCompute中的数据导出至其他数据源执行后续数据处理操作时，您可以使用数据集成功能导出数据。本文为您介绍如何将MaxCompute的...

创建Elasticsearch数据源

使用限制若您需在Dataphin中创建基于阿里云产品的数据源，创建数据源前，需确保Dataphin的IP已添加至数据库白名单（或安全组）中，使数据源与Dataphin网络互通。具体操作，请参见数据源白名单配置。权限说明仅支持拥有新建数据源权限...

创建Hologres数据源

前提条件若您需在Dataphin中创建基于阿里云产品的数据源，创建数据源前，需确保Dataphin的IP已添加至数据库白名单（或安全组）中，使数据源与Dataphin网络互通。具体操作，请参见数据源白名单配置。背景信息 Hologres即阿里云交互式分析...

数据字典

在数仓开发和数据分析过程中，当业务中有常量数据或者业务数据可以划分为业务事实表和业务维度表时，您可以通过使用数据字典来替代维度表实现，避免使用Join语句，从而提升查询效率。本文为您介绍云数据库ClickHouse 如何新建、修改和使用...

创建PostgreSQL数据源

前提条件若您需在Dataphin中创建基于阿里云产品的数据源，创建数据源前，需确保Dataphin的IP已添加至数据库白名单（或安全组）中，使数据源与Dataphin网络互通。具体操作，请参见数据源白名单配置。权限说明仅支持具备新建数据源权限点...

使用独立的Trino集群

背景信息在使用开源大数据平台E-MapReduce控制台时，您可以在创建DataLake集群、自定义集群或Hadoop集群时选择Trino服务，或者创建独立的Trino集群使用Trino服务。Trino集群具备以下特点：Trino独享集群资源，受其他组件干扰少。支持弹性...

创建Microsoft SQL Server数据源

前提条件若您需在Dataphin中创建基于阿里云产品的数据源，创建数据源前，需确保Dataphin的IP已添加至数据库白名单（或安全组）中，使数据源与Dataphin网络互通。具体操作，请参见数据源白名单配置。权限说明仅支持具备新建数据源权限点...

创建PolarDB数据源

前提条件若您需在Dataphin中创建基于阿里云产品的数据源，创建数据源前，需确保Dataphin的IP已添加至数据库白名单（或安全组）中，使数据源与Dataphin网络互通。具体操作，请参见数据源白名单配置。背景信息 PolarDB是阿里云自主研发新...

创建PolarDB-X数据源

前提条件若您需在Dataphin中创建基于阿里云产品的数据源，创建数据源前，需确保Dataphin的IP已添加至数据库白名单（或安全组）中，使数据源与Dataphin网络互通。具体操作，请参见数据源白名单配置。背景信息 PolarDB-X（原DRDS升级版）是...