通用数据交换平台-通用数据交换平台文档介绍内容-移动阿里云

什么是DataWorks

DataWorks通过“火鸟项目”支撑集团统一数据交换平台。将阿里所有的数据整合到云梯2，打造集团统一数据平台。第三阶段(2018)数据中台支撑业务可持续发展数据驱动业务发展：小二（运营人员）覆盖用户生命周期的精细化运营策略。实现个性化...

云计算资源类型

云计算资源是数据资源平台中通用资源使用的基础，通过了解通用资源支持的云计算资源类型，并在系统设置模块添加通用资源需要使用的云计算资源类型对应资源，以备在新建函数资源、自定义函数并物理化以及新建数据基础库并物理化时使用。...

Cloudera CDP 企业数据云平台

企业数据云平台Cloudera Data Platform（简称阿里云CDP），是阿里云和Cloudera联合打造阿里云上的大数据平台。

消除数据重分布

许多查询在执行中需要进行数据交换,比如redistribution和broadcast。数据交换所导致的费用在整个查询执行时间中所占比例比较可观，同时也消耗网络资源。所以应该尽量减少和避免数据交换。首先分析数据库系统的查询模式，确定系统中成本最高...

伪类型

anyrange 表示一个函数可以接受任意范围数据类型 anycompatible 指示函数接受任何数据类型，并自动将多个参数提升为通用数据类型 anycompatiblearray 指示函数接受任何数组数据类型，并自动将多个参数提升为通用数据类型 ...

开源大数据平台 E-MapReduce

开源大数据平台E-MapReduce（Elastic MapReduce）是运行在阿里云平台上的一种大数据处理的系统解决方案。

敏感数据保护

敏感数据的数据集成加解密如果在数据上云、数据交换等场景，需要对传输中的数据进行加解密保护，则可以使用Dataphin的集成加解密能力，对集成的数据进行加解密保护。加密后的数据只有拥有密钥权限的用户才能够进行查看，从而更好地保护...

敏感数据保护

敏感数据的数据集成加解密如果在数据上云、数据交换等场景，需要对传输中的数据进行加解密保护，则可以使用Dataphin的集成加解密能力，对集成的数据进行加解密保护。加密后的数据只有拥有密钥权限的用户才能够进行查看，从而更好地保护...

DataWorks交流钉钉群

DataWorks作为阿里云大数据平台操作系统，对接各种大数据计算引擎，以all in one box的方式提供专业高效、安全可靠的全域智能大数据平台，高效率完成数据全链路研发流程，建设企业数据治理体系，同时提供优质高效的交流服务，本文为您介绍...

什么是阿里云Cloudera CDP

企业数据云平台Cloudera Data Platform（简称阿里云CDP），是阿里云和Cloudera联合打造的阿里云上的大数据平台。前置概念阅读本文前，您可能需要了解如下概念：什么是边缘计算？什么是人工智能（AI）？什么是SQL？Cloudera CDP企业数据云...

基本概念

数据资产：数据资源平台中存在大量的数据表、标签、API等各类数据资产，数据管理者通过数据汇聚、数据治理、数据分析后，需要对整个平台数据进行统一管控，了解平台的核心数据资产，提供对应的数据资产管理规范。统一服务应用：是调用API...

应用场景

该方案优势如下：全托管免运维弹性扩展能力开放数据湖架构一站式的数据开发平台数据查询与分析场景在传统数据平台下，数据仓库工程师和数据分析师通常面临两个不同的环境，甚至使用不同的引擎和语法，导致数据指标和算子行为存在差异...

封装流式数据（DataHub）API

本文介绍如何封装流式数据API。前提条件工作组管理员账号登录。已创建“信息中心（xxzx）”工作组，具体操作，请参见新建工作组并添加成员。已在系统设置添加DataHub云计算资源，具体操作，请参见新建云计算资源。已创建API归属应用，...

管理数据

说明搜索的更多信息，请参见 通用数据查询与管理。查看表详情搜索到目标表后，单击表名，即可进入表详情页，表详情页包含了表的基础信息、技术信息、业务信息、明细信息和使用说明等信息，详情可参见查看表详情。

模板搭建数据看板

操作流程您可通过如下操作，完成对碧玺绿地球通用数据看板的创建，快速体验 DataV-Board 的相关功能。步骤一：创建数据看板步骤二：配置组件样式步骤三：适配组件数据步骤四：预览并发布数据看板步骤一：创建数据看板为您介绍使用...

数仓分层

数据公共层CDM（Common Data Model，又称通用数据模型层），包括DIM维度表、DWD和DWS，由ODS层数据加工而成。主要完成数据加工与整合，建立一致性的维度，构建可复用的面向分析和统计的明细事实表，以及汇总公共粒度的指标。公共维度层...

新建数据服务API-向导模式

数据服务API是一种API类型，由云计算资源中的数据通过参数配置生成，生成的API便于后续调用，可减少资源操作成本。本文介绍如何通过向导模式新建API。对原始数据层表“ys_xyk_bkxx”封装API 前提条件工作组管理员账号登录。已创建“信息...

01创建解决方案

将应用、服务、数据源等资源生成整体解决方案包，便于在其他系统或工作组中快速部署。本文以按应用关联为例，介绍如何创建解决方案。前提条件已创建“信息中心（xxzx）”工作组，具体操作，请参见新建工作组并添加成员。线上场景已上线，...

新建数据服务API-SQL模式

数据服务API是一种API类型，由云计算资源中的数据通过参数配置生成，生成的API便于后续调用，减少资源操作成本。本文介绍如何通过SQL模式新建API。前提条件工作组管理员账号登录。已创建“信息中心（xxzx）”工作组，具体操作，请参见 ...

OceanBase 数据库支持版本

V4.3.3 版本数据库参考文档模式文档简介通用数据库设计规范和约束本文档为您介绍 OceanBase 数据库的对象命名、对象结构设计、字符集、数据库连接以及注释使用规范。SQL 实践和建议本文档为您介绍 OceanBase 数据库的 SQL 编写、...

Iceberg

适用场景 Iceberg作为通用数据湖解决方案中最核心的组件之一，主要适用于以下场景。场景描述实时数据导入和查询数据实时从上游流入Iceberg数据湖，查询侧即可查询该数据。例如，在日志场景中，启动 Iceberg 或 Spark 流作业，实时地将...

客户案例

DataWorks在多个行业中均有典型的案例落地，帮助多个行业的企业解决数据痛点，挖掘数据价值。本文为您介绍典型行业中已落地的客户案例。新零售行业：大润发云上数据中台建设客户简介为了快速数字化转型，拥抱新零售，大润发计划两年内将...

功能简介

数据资产编目，数据管理者对平台数据资产进行梳理，确定其共享属性，并按照技术标准，进行数据类目定义。数据资产上线，将已经注册管理的高质量数据资产资源发布，供数据使用者查询和使用。数据资产申请，数据使用者向数据管理方提出使用...

运营

运营主要面向租户资产管理员，为用户提供数据资产编目、数据资产上线、数据资产下线等能力。通过获取资产元数据信息，并同步到数据资产目录完成数据资产注册。数据资产管理涉及三种用户角色，包括资产使用方、租户资产管理员、工作组管理员...

产品简介

开源大数据开发平台E-MapReduce（简称EMR）是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

数据地图

更多详情，请参加 通用数据查询与管理。同时，数据地图支持以数据目录方式查看数据源的表和数据集。元数据详情在数据地图检索到目标对象之后，单击目标对象名称跳转至详情页面。对于表，查看表的基础信息、产出信息和血缘信息等信息...

Paimon

目前阿里云开源大数据平台E-MapReduce常见的计算引擎（例如Flink、Spark、Hive或Trino）都与Paimon有着较为完善的集成度。您可以借助Apache Paimon快速地在HDFS或者云端OSS上构建自己的数据湖存储服务，并接入上述计算引擎实现数据湖的分析...

产品形态选型

阿里云开放的大数据平台 E‑MapReduce(EMR)提供了多种产品形态，以满足不同用户的业务需求。根据部署方式可分为 EMR Serverless Spark、EMR Serverless StarRocks、EMR on ECS 和 EMR on ACK。为帮助用户选择合适的产品，以下整理了各产品...

存储资源包

资源包类型规格范围费用（单位：元/100 GB/月）中国内地-热数据通用 100～300 GB 199.58 400～600 GB 197.56 700～900 GB 195.55 1000 GB 193.54 中国香港及海外-热数据通用 100～300 GB 299.38 400～600 GB 296.35 700～900 GB 293.32 ...

综合：网站用户画像分析

本案例以简单的网站用户画像分析为例，带您熟悉DataWorks的主要功能和常见任务，主要包含同步数据、加工数据、管理数据以及消费数据操作。案例目标案例预期通过本案例的实操，您将能够在DataWorks中独立完成数据同步、数据开发和任务运...

什么是EMR Serverless Spark

该产品为企业提供了一站式的数据平台服务，包括任务开发、调试、调度及运维等功能，显著简化了数据处理与模型训练的全流程。同时，它100%兼容开源Spark生态，能够无缝集成到客户现有的数据平台。通过使用EMR Serverless Spark，企业可以...

什么是EMR on ACK

阿里云E-MapReduce（简称EMR）on ACK提供了全新构建大数据平台的方式。您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注...

什么是EMR on ECS

开源组件集成Apache社区开源大数据组件，涵盖数据集成、数据存储、资源管理、计算引擎、数据开发、数据服务等多个领域，方便快速搭建高效可靠的数据处理和管理平台。自研组件为了让开源大数据组件和服务更好地运行在阿里云基础设施上，...

选择业务场景

若您的业务需集成特定组合的组件，您可创建自定义集群，灵活组合EMR提供的组件，打造适配业务特性的大数据平台。本文将为您介绍这些集群的区别，帮助您快速选型。业务场景选型业务场景（集群类型）支持的组件核心能力适用场景数据湖...

应用场景

解决方案 DataWorks 联合 MaxCompute、Hologres 等云原生大数据引擎，提供一套湖仓一体、流批融合的一站式智能数据平台解决方案，帮助企业打破数据处理的时效壁垒。统一的数据接入与分层通过 DataWorks 数据集成(Data Integration)，...

Hadoop集群迁移至DataLake集群

背景信息 E-MapReduce（简称EMR）新版控制台是EMR发布的下一代云原生开源大数据平台，为用户提供全新平台体验、全新开发平台、全新资源形态和全新分析场景。新版控制台的功能特点，详情请参见 EMR新版控制台上线公告。EMR on ECS作为EMR...

导出字段标准通用信息

操作步骤登录数据资源平台控制台。在页面左上角，单击图标，选择协同。在顶部菜单栏，单击图标，选择目标工作组，单击资产加工。说明若您已在资产加工页面，请跳过“单击资产加工”的操作。在左侧导航栏，单击图标，选择通用...

导入字段标准通用信息

操作步骤登录数据资源平台控制台。在页面左上角，单击图标，选择协同。在顶部菜单栏，单击图标，选择目标工作组，单击资产加工。说明若您已在资产加工页面，请跳过“单击资产加工”的操作。在左侧导航栏，单击图标，选择通用...

续费

在续费页面，请您仔细核对购买信息并阅读阿里云产品服务协议（通用），确认无误后，勾选数据资源平台服务协议。重要系统仅支持按照已购买的配置进行续费。单击立即购买。在支付页面，核对订单无误后，单击支付，支付成功后即可完成...

DataWorks on EMR Serverless StarRocks最佳实践

DataWorks支持StarRocks数据源，通过数据源对接EMR ...说明表详情的更多信息，请参见 通用数据查询与管理。StarRocks Serverless集群的3.1.13版本、3.2.9版本及以后的版本支持开启元数据、血缘分析能力，具体配置方法，请参见查看血缘。