免费大数据平台-免费大数据平台文档介绍内容-移动阿里云

Alluxio（仅对存量用户开放）

背景信息在大数据生态系统中，Alluxio位于数据驱动框架或应用（例如Apache Spark、Presto、TensorFlow、Apache Flink和Apache Hive等）和各种持久化存储系统（例如HDFS和阿里云OSS）之间，使得上层的计算应用可以通过统一的客户端API和...

Spark

Spark是一个通用的大数据分析引擎，具有高性能、易用性和普遍性等特点。架构 Spark架构如下图所示，基于Spark Core构建了Spark SQL、Spark Streaming、MLlib和Graphx四个主要编程库，分别用于离线ETL（Extract-Transform-Load）、在线数据...

Flink

Flink核心是一个流式的数据流执行引擎，其针对数据流的分布式计算提供了数据分布、数据通信以及容错机制等功能。基于流执行引擎，Flink提供了更高抽象层的API以便您编写分布式任务。背景信息 EMR Flink完全兼容开源Flink，相关内容请参见...

DeltaLake

Delta Lake以数据为中心，围绕数据流走向（数据从流入数据湖、数据组织管理和数据查询到流出数据湖）推出了一系列功能特性，协助您搭配第三方上下游工具，搭建快捷、易用和安全的数据湖。背景信息通常的数据湖方案是选取大数据存储引擎...

阶段一：基础防护建设

在该阶段，DataWorks为您提供了数据分类分级、规范数据开发流程、企业级身份认证、开源身份隔离等多个场景的最佳实践，帮助企业做好数据安全治理的相关基础防护工作。场景一：数据分级分类无论在任何行业，数据分级分类都是监管首要检查的...

Github实时数据同步与分析

操作难度易所需时间 55分钟使用的阿里云产品实时数仓Hologres 云原生大数据计算服务 MaxCompute 专有网络VPC 大数据开发治理平台 DataWorks DataV数据可视化所需费用 Hologres：0元。阿里云提供一定额度的资源包供您免费体验，开通后...

物联网设备数据上云存储

本文介绍如何使用阿里云物联网平台和 TSDB 进行数据打通，实现物联网设备系统的开发和管理、数据采集、数据上报、数据存储和分析的一体化方案，构建智能物联网平台。架构参考“物联网平台+TSDB”方案的实现架构如下：物联网设备通过 IoT ...

准备环境

为保证您可以顺利完成本次实验，请您首先确保自己云账号已开通大数据计算服务MaxCompute、数据工场DataWorks和人工智能平台 PAI。前提条件注册阿里云账号，详情请参见注册阿里云账号。实名认证，详情请参见个人实名认证背景信息本次...

Hive统一元数据

EMR上可以支持将数据存放在阿里云OSS中，在大数据量的情况下将数据存储在OSS上会大大降低使用的成本，EMR集群主要用来作为计算资源，在计算完成之后可以随时释放，数据在OSS上，同时也不用再考虑元数据迁移的问题。数据共享。使用统一的...

解决方案

数据资源平台中的数据标准、数据模型、数据加工场景、数据服务API、云计算资源配置等资产，经过验证最终可沉淀为一个特定的解决方案。支持通过不同的创建方式，灵活的选择解决方案中包含的内容。依托数据资源平台中管理的大量元数据，确保...

选择地域和存储

使用场景在EMR控制台的节点组配置中，当附录：ECS实例类型选择 大数据型、本地SSD 时，其数据盘为物理直连的本地盘，直接挂载于服务器，提供极低延迟与高吞吐性能。说明本地盘仅适用于核心节点（Core）或任务节点（Task）。本地盘有...

问题汇总

补数据补数据功能说明为什么小时分钟任务补数据选择了并行但实际不生效？为什么补数据选择业务时间后不运行，实例显示黄色，实例状态显示等待时间？为什么补数据报错调起的节点运行时间不在所选业务时间范围内？为什么有节点选择了补数据...

功能简介

数据资源平台中的数据标准、数据模型、数据加工场景、数据服务API、云计算资源配置等资产，经过验证最终可沉淀为一个特定的解决方案。支持通过不同的创建方式，灵活的选择解决方案中包含的内容。依托数据资源平台中管理的大量元数据，确保...

测试案例

背景介绍 TPC-DS是一套决策支持系统的基准测试，它对决策支持系统的几个通用方面进行建模，包括查询和数据维护，用于衡量大数据产品的分析性能。TPC-DS模拟了零售企业三种销售渠道（实体店、互联网、目录）的销售和退货业务，除了建立相关...

数据质量

DataWorks 数据质量（DQC）是一个强大的数据监控和保障平台。它能帮助您在数据生产链路中主动发现并拦截不符合预期的“脏数据”，避免问题数据向下游扩散，从而保障业务决策的准确性，并显著降低问题排查与资源重跑的成本。核心概念与工作...

Hive数据管理

PARQUET：列式存储格式，压缩率高，适合大数据分析。ORC：优化的列式存储格式，性能优异，支持复杂数据类型。AVRO：支持模式演化的二进制格式，适合动态数据结构。JSON：支持嵌套结构，适合半结构化数据。SELE_DEFINE：允许用户自定义序列...

Iceberg

您可以借助Iceberg快速地在HDFS或者阿里云OSS上构建自己的数据湖存储服务，并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。核心能力 Apache Iceberg设计初衷是为了解决Hive数仓上云的问题，经过多年迭代...

Vertica节点

背景信息 Vertica是一个高性能的列式存储数据库管理系统（DBMS），可高速处理和查询大规模数据集，主要用于大数据分析和实时查询。更多介绍请参见 Vertica官网。前提条件已创建业务流程。数据开发（DataStudio）基于业务流程执行不同引擎...

单表离线同步任务

数据集成的离线同步功能为您提供数据读取（Reader）和写入插件（Writer），方便您通过定义来源与去向数据源，并结合DataWorks调度参数使用，将源端数据库中全量或增量数据的同步至目标数据库中。本文为您介绍离线同步的相关能力。核心能力 ...

DataWorks On CDP/CDH使用说明

CDP是跨平台收集和整合客户数据的公共数据平台，可帮助您收集实时数据，并将其构建为单独的用户数据使用。您可在DataWorks中注册CDH及CDP集群，基于业务需求进行相关任务开发、调度、数据地图（元数据管理）和数据质量等一系列的数据开发和...

Superset（仅对存量用户开放）

使用Superset访问Hive数据库 Superset提供了SQLAlchemy以多种语言支持各种各样的数据库，包括MySQL、Oracle、PostgreSQL和Microsoft SQL Server等关系型数据库，以及Hive、Presto和Druid等大数据查询引擎。这里以E-MapReduce Hadoop集群...

Celeborn介绍

Apache Celeborn是阿里云开源的中间数据服务，旨在提升大数据计算引擎的性能、稳定性和灵活性。Celeborn设计独立于具体引擎，支持Spark、Flink、MapReduce(MR)和 Tez，并且是目前最流行的Remote Shuffle Service的实现。Celeborn架构 ...

运营

运营主要面向租户资产管理员，为用户提供数据资产编目、数据资产上线、数据资产下线等能力。通过获取资产元数据信息，并同步到数据资产目录完成数据资产注册。数据资产管理涉及三种用户角色，包括资产使用方、租户资产管理员、工作组管理员...

DB2节点

背景信息 DB2是一款关系型数据库管理系统（RDBMS），用于存储、检索及管理数据，适用于处理高吞吐量、大数据集以及数据仓库的复杂查询和事务处理。更多介绍请参见 DB2官网。前提条件已创建业务流程。数据开发（DataStudio）基于业务流程...

功能简介

数据资产编目，数据管理者对平台数据资产进行梳理，确定其共享属性，并按照技术标准，进行数据类目定义。数据资产上线，将已经注册管理的高质量数据资产资源发布，供数据使用者查询和使用。数据资产申请，数据使用者向数据管理方提出使用...

DLF Catalog数据管理

PARQUET：列式存储格式，压缩率高，适合大数据分析。ORC：优化的列式存储格式，性能优异，支持复杂数据类型。AVRO：支持模式演化的二进制格式，适合动态数据结构。JSON：支持嵌套结构，适合半结构化数据。SELE_DEFINE：允许用户自定义序列...

SelectDB节点

背景信息 SelectDB是基于Apache Doris打造的新一代多云原生实时数据仓库，聚焦于满足企业级大数据实时分析需求，为您提供极致性价比、简单易用的数据分析服务。更多介绍，请参见 SelectDB。前提条件已创建业务流程。数据开发（DataStudio...

数据同步至MaxCompute

DataWorks的数据同步至MaxCompute节点支持将Hologres中的单表数据迁移到MaxCompute，帮助您高效存储大数据。本文将详细介绍配置流程，让您轻松迁移数据并充分利用MaxCompute的高性能处理能力。前提条件已创建MaxCompute项目和 Hologres...

使用OpenAPI

本文为您介绍使用大数据开发治理平台DataWorks OpenAPI的基本信息、使用限制、计费及调用说明。基本信息版本 OpenAPI门户支持的API列表支持的地域 2024-05-18（新版OpenAPI）OpenAPI门户支持的API列表华东1（杭州）、华东2（上海）、...

GBase 8a节点

背景信息 GBase 8a是一款关系型数据库管理系统（RDBMS），支持大数据量存储和高并发读写能力，通常用于政府、金融、电信、能源等领域。GBase 8a支持SQL标准，并提供了一系列的企业级功能（例如，数据分区、负载均衡、灾备备份等）。更多...

数据同步至Hologres

DataWorks的数据同步节点支持将MaxCompute中的单表数据同步到Hologres，帮助您更高效地进行大数据分析和实时查询。本文将详细介绍配置流程，让您轻松迁移数据并充分利用Hologres的高性能查询能力。背景信息在使用此功能将MaxCompute的内部...

Amazon Redshift数据源

Amazon Redshift数据源为您提供读取和写入Amazon Redshift的双向通道，方便您后续可以通过向导模式和脚本模式配置数据同步任务。本文为您介绍Amazon Redshift数据同步能力支持情况。支持的Amazon Redshift版本 Amazon Redshift使用的驱动...

SQL查询（新版）

对象存储OSS：将查询结果以指定格式（如CSV、Parquet）导出至阿里云对象存储OSS（Object Storage Service）空间，适用于大数据量归档或与其他云产品集成的场景。首次使用时，您需要为DataWorks进行授权，以允许其访问您的OSS资源。请在 ...

SelectDB数据源

DataWorks数据集成支持使用SelectDB Writer导入表数据至SelectDB。本文为您介绍DataWorks的SelectDB数据同步能力支持情况。支持的SelectDB版本 SelectDB Writer使用的驱动版本是MySQL Driver5.1.47，驱动能力详情请参见 MySQL Connectors。...

数据导入

为了更好地满足各种不同的业务场景，StarRocks支持多种数据模型，StarRocks中存储的数据需要按照特定的模型进行组织。本文为您介绍数据导入的基本概念、原理、系统配置、不同导入方式的适用场景，以及一些最佳实践案例和常见问题。背景信息...

Hologres数据管理

通过DataWorks数据源：如需管理当前工作空间中已创建的Hologres数据源，可在 DataWorks数据源页签找到对应的数据源，单击操作栏的添加为数据目录按钮完成添加。也可在 DataWorks数据源页签勾选多个Hologres数据源，单击列表下方的 ...

管理元数据

元数据管理功能主要展示当前实例的所有数据库、数据表、分区及各种任务等信息，同时支持创建数据库和数据表，并定义其列及相关属性。前提条件已创建StarRocks实例，详情请参见创建实例。使用限制普通用户无法查看数据库大小、缓存数据...

SQL查询（旧版）

对象存储OSS：将查询结果以指定格式（如CSV、Parquet）导出至阿里云对象存储OSS（Object Storage Service）空间，适用于大数据量归档或与其他云产品集成的场景。首次使用时，您需要为DataWorks进行授权，以允许其访问您的OSS资源。请在 ...

DataWorks On MaxCompute使用说明

数据地图概述安全中心数据保护伞审批中心安全中心是集数据资产分级分类、敏感数据识别、数据授权管理、敏感数据脱敏、敏感数据访问审计、风险识别与响应于一体的一站式数据安全治理界面，帮助用户落地数据安全治理事项。安全中心概述 ...

购买指引

大数据计算引擎与存储费用（独立计费）：DataWorks是一个大数据开发与调度平台，它本身不执行核心的计算和存储。当您通过DataWorks提交一个SQL任务时，实际执行该任务的是底层的计算引擎（如MaxCompute、Hologres、E-MapReduce等），产生的...