背景信息 在大数据生态系统中,Alluxio位于数据驱动框架或应用(例如Apache Spark、Presto、TensorFlow、Apache Flink和Apache Hive等)和各种持久化存储系统(例如HDFS和阿里云OSS)之间,使得上层的计算应用可以通过统一的客户端API和...
Spark是一个通用的大数据分析引擎,具有高性能、易用性和普遍性等特点。架构 Spark架构如下图所示,基于Spark Core构建了Spark SQL、Spark Streaming、MLlib和Graphx四个主要编程库,分别用于离线ETL(Extract-Transform-Load)、在线数据...
Flink核心是一个流式的数据流执行引擎,其针对数据流的分布式计算提供了数据分布、数据通信以及容错机制等功能。基于流执行引擎,Flink提供了更高抽象层的API以便您编写分布式任务。背景信息 EMR Flink完全兼容开源Flink,相关内容请参见...
Delta Lake以数据为中心,围绕数据流走向(数据从流入数据湖、数据组织管理和数据查询到流出数据湖)推出了一系列功能特性,协助您搭配第三方上下游工具,搭建快捷、易用和安全的数据湖。背景信息 通常的数据湖方案是选取大数据存储引擎...
在该阶段,DataWorks为您提供了数据分类分级、规范数据开发流程、企业级身份认证、开源身份隔离等多个场景的最佳实践,帮助企业做好数据安全治理的相关基础防护工作。场景一:数据分级分类 无论在任何行业,数据分级分类都是监管首要检查的...
操作难度 易 所需时间 55分钟 使用的阿里云产品 实时数仓Hologres 云原生大数据计算服务 MaxCompute 专有网络VPC 大数据开发治理平台 DataWorks DataV数据可视化 所需费用 Hologres:0元。阿里云提供一定额度的资源包供您免费体验,开通后...
本文介绍如何使用阿里云物联网平台和 TSDB 进行数据打通,实现物联网设备系统的开发和管理、数据采集、数据上报、数据存储和分析的一体化方案,构建智能物联网平台。架构参考“物联网平台+TSDB”方案的实现架构如下:物联网设备通过 IoT ...
为保证您可以顺利完成本次实验,请您首先确保自己云账号已开通大数据计算服务MaxCompute、数据工场DataWorks和 人工智能平台 PAI。前提条件 注册阿里云账号,详情请参见 注册阿里云账号。实名认证,详情请参见 个人实名认证 背景信息 本次...
EMR上可以支持将数据存放在阿里云OSS中,在大数据量的情况下将数据存储在OSS上会大大降低使用的成本,EMR集群主要用来作为计算资源,在计算完成之后可以随时释放,数据在OSS上,同时也不用再考虑元数据迁移的问题。数据共享。使用统一的...
数据资源平台中的数据标准、数据模型、数据加工场景、数据服务API、云计算资源配置等资产,经过验证最终可沉淀为一个特定的解决方案。支持通过不同的创建方式,灵活的选择解决方案中包含的内容。依托数据资源平台中管理的大量元数据,确保...
使用场景 在EMR控制台的节点组配置中,当 附录:ECS实例类型 选择 大数据型、本地SSD 时,其数据盘为物理直连的本地盘,直接挂载于服务器,提供极低延迟与高吞吐性能。说明 本地盘仅适用于核心节点(Core)或任务节点(Task)。本地盘有...
补数据 补数据功能说明 为什么小时分钟任务补数据选择了并行但实际不生效?为什么补数据选择业务时间后不运行,实例显示黄色,实例状态显示等待时间?为什么补数据报错调起的节点运行时间不在所选业务时间范围内?为什么有节点选择了补数据...
数据资源平台中的数据标准、数据模型、数据加工场景、数据服务API、云计算资源配置等资产,经过验证最终可沉淀为一个特定的解决方案。支持通过不同的创建方式,灵活的选择解决方案中包含的内容。依托数据资源平台中管理的大量元数据,确保...
背景介绍 TPC-DS是一套决策支持系统的基准测试,它对决策支持系统的几个通用方面进行建模,包括查询和数据维护,用于衡量大数据产品的分析性能。TPC-DS模拟了零售企业三种销售渠道(实体店、互联网、目录)的销售和退货业务,除了建立相关...
DataWorks 数据质量(DQC)是一个强大的数据监控和保障平台。它能帮助您在数据生产链路中主动发现并拦截不符合预期的“脏数据”,避免问题数据向下游扩散,从而保障业务决策的准确性,并显著降低问题排查与资源重跑的成本。核心概念与工作...
PARQUET:列式存储格式,压缩率高,适合大数据分析。ORC:优化的列式存储格式,性能优异,支持复杂数据类型。AVRO:支持模式演化的二进制格式,适合动态数据结构。JSON:支持嵌套结构,适合半结构化数据。SELE_DEFINE:允许用户自定义序列...
您可以借助Iceberg快速地在HDFS或者阿里云OSS上构建自己的数据湖存储服务,并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。核心能力 Apache Iceberg设计初衷是为了解决Hive数仓上云的问题,经过多年迭代...
背景信息 Vertica是一个高性能的列式存储数据库管理系统(DBMS),可高速处理和查询大规模数据集,主要用于大数据分析和实时查询。更多介绍请参见 Vertica官网。前提条件 已创建业务流程。数据开发(DataStudio)基于业务流程执行不同引擎...
数据集成的离线同步功能为您提供数据读取(Reader)和写入插件(Writer),方便您通过定义来源与去向数据源,并结合DataWorks调度参数使用,将源端数据库中全量或增量数据的同步至目标数据库中。本文为您介绍离线同步的相关能力。核心能力 ...
CDP是跨平台收集和整合客户数据的公共数据平台,可帮助您收集实时数据,并将其构建为单独的用户数据使用。您可在DataWorks中注册CDH及CDP集群,基于业务需求进行相关任务开发、调度、数据地图(元数据管理)和数据质量等一系列的数据开发和...
使用Superset访问Hive数据库 Superset提供了SQLAlchemy以多种语言支持各种各样的数据库,包括MySQL、Oracle、PostgreSQL和Microsoft SQL Server等关系型数据库,以及Hive、Presto和Druid等大数据查询引擎。这里以E-MapReduce Hadoop集群...
Apache Celeborn是阿里云开源的中间数据服务,旨在提升大数据计算引擎的性能、稳定性和灵活性。Celeborn设计独立于具体引擎,支持Spark、Flink、MapReduce(MR)和 Tez,并且是目前最流行的Remote Shuffle Service的实现。Celeborn架构 ...
运营主要面向租户资产管理员,为用户提供数据资产编目、数据资产上线、数据资产下线等能力。通过获取资产元数据信息,并同步到数据资产目录完成数据资产注册。数据资产管理涉及三种用户角色,包括资产使用方、租户资产管理员、工作组管理员...
背景信息 DB2是一款关系型数据库管理系统(RDBMS),用于存储、检索及管理数据,适用于处理高吞吐量、大数据集以及数据仓库的复杂查询和事务处理。更多介绍请参见 DB2官网。前提条件 已创建业务流程。数据开发(DataStudio)基于业务流程...
数据资产编目,数据管理者对平台数据资产进行梳理,确定其共享属性,并按照技术标准,进行数据类目定义。数据资产上线,将已经注册管理的高质量数据资产资源发布,供数据使用者查询和使用。数据资产申请,数据使用者向数据管理方提出使用...
PARQUET:列式存储格式,压缩率高,适合大数据分析。ORC:优化的列式存储格式,性能优异,支持复杂数据类型。AVRO:支持模式演化的二进制格式,适合动态数据结构。JSON:支持嵌套结构,适合半结构化数据。SELE_DEFINE:允许用户自定义序列...
背景信息 SelectDB是基于Apache Doris打造的新一代多云原生实时数据仓库,聚焦于满足企业级大数据实时分析需求,为您提供极致性价比、简单易用的数据分析服务。更多介绍,请参见 SelectDB。前提条件 已创建业务流程。数据开发(DataStudio...
DataWorks的数据同步至MaxCompute节点支持将Hologres中的单表数据迁移到MaxCompute,帮助您高效存储大数据。本文将详细介绍配置流程,让您轻松迁移数据并充分利用MaxCompute的高性能处理能力。前提条件 已 创建MaxCompute项目 和 Hologres...
本文为您介绍使用大数据开发治理平台DataWorks OpenAPI的基本信息、使用限制、计费及调用说明。基本信息 版本 OpenAPI门户 支持的API列表 支持的地域 2024-05-18(新版OpenAPI)OpenAPI门户 支持的API列表 华东1(杭州)、华东2(上海)、...
背景信息 GBase 8a是一款关系型数据库管理系统(RDBMS),支持大数据量存储和高并发读写能力,通常用于政府、金融、电信、能源等领域。GBase 8a支持SQL标准,并提供了一系列的企业级功能(例如,数据分区、负载均衡、灾备备份等)。更多...
DataWorks的数据同步节点支持将MaxCompute中的单表数据同步到Hologres,帮助您更高效地进行大数据分析和实时查询。本文将详细介绍配置流程,让您轻松迁移数据并充分利用Hologres的高性能查询能力。背景信息 在使用此功能将MaxCompute的内部...
Amazon Redshift数据源为您提供读取和写入Amazon Redshift的双向通道,方便您后续可以通过向导模式和脚本模式配置数据同步任务。本文为您介绍Amazon Redshift数据同步能力支持情况。支持的Amazon Redshift版本 Amazon Redshift使用的驱动...
对象存储OSS:将查询结果以指定格式(如CSV、Parquet)导出至阿里云对象存储OSS(Object Storage Service)空间,适用于大数据量归档或与其他云产品集成的场景。首次使用时,您需要为DataWorks进行授权,以允许其访问您的OSS资源。请在 ...
DataWorks数据集成支持使用SelectDB Writer导入表数据至SelectDB。本文为您介绍DataWorks的SelectDB数据同步能力支持情况。支持的SelectDB版本 SelectDB Writer使用的驱动版本是MySQL Driver5.1.47,驱动能力详情请参见 MySQL Connectors。...
为了更好地满足各种不同的业务场景,StarRocks支持多种数据模型,StarRocks中存储的数据需要按照特定的模型进行组织。本文为您介绍数据导入的基本概念、原理、系统配置、不同导入方式的适用场景,以及一些最佳实践案例和常见问题。背景信息...
通过DataWorks数据源:如需管理当前工作空间中 已创建的Hologres数据源,可在 DataWorks数据源 页签找到对应的数据源,单击 操作 栏的 添加为数据目录 按钮完成添加。也可在 DataWorks数据源 页签勾选多个Hologres数据源,单击列表下方的 ...
元数据管理功能主要展示当前实例的所有数据库、数据表、分区及各种任务等信息,同时支持创建数据库和数据表,并定义其列及相关属性。前提条件 已创建StarRocks实例,详情请参见 创建实例。使用限制 普通用户无法查看数据库大小、缓存数据...
对象存储OSS:将查询结果以指定格式(如CSV、Parquet)导出至阿里云对象存储OSS(Object Storage Service)空间,适用于大数据量归档或与其他云产品集成的场景。首次使用时,您需要为DataWorks进行授权,以允许其访问您的OSS资源。请在 ...
数据地图概述 安全中心 数据保护伞 审批中心 安全中心是集数据资产分级分类、敏感数据识别、数据授权管理、敏感数据脱敏、敏感数据访问审计、风险识别与响应于一体的一站式数据安全治理界面,帮助用户落地数据安全治理事项。安全中心概述 ...
大数据计算引擎与存储费用(独立计费):DataWorks是一个大数据开发与调度平台,它本身不执行核心的计算和存储。当您通过DataWorks提交一个SQL任务时,实际执行该任务的是底层的计算引擎(如MaxCompute、Hologres、E-MapReduce等),产生的...