做大数据平台

_相关内容

准备环境

为保证您可以顺利完成本次实验,请您首先确保自己云账号已开通大数据计算服务MaxCompute、数据工场DataWorks和 人工智能平台 PAI。前提条件 注册阿里云账号,详情请参见 注册阿里云账号。实名认证,详情请参见 个人实名认证 背景信息 本次...

解决方案

数据资源平台中的数据标准、数据模型、数据加工场景、数据服务API、云计算资源配置等资产,经过验证最终可沉淀为一个特定的解决方案。支持通过不同的创建方式,灵活的选择解决方案中包含的内容。依托数据资源平台中管理的大量元数据,确保...

选择地域和存储

使用场景 在EMR控制台的节点组配置中,当 附录:ECS实例类型 选择 大数据型、本地SSD 时,其数据盘为物理直连的本地盘,直接挂载于服务器,提供极低延迟与高吞吐性能。说明 本地盘仅适用于核心节点(Core)或任务节点(Task)。本地盘有...

测试案例

背景介绍 TPC-DS是一套决策支持系统的基准测试,它对决策支持系统的几个通用方面进行建模,包括查询和数据维护,用于衡量大数据产品的分析性能。TPC-DS模拟了零售企业三种销售渠道(实体店、互联网、目录)的销售和退货业务,除了建立相关...

数据质量

DataWorks 数据质量(DQC)是一个强大的数据监控和保障平台。它能帮助您在数据生产链路中主动发现并拦截不符合预期的“脏数据”,避免问题数据向下游扩散,从而保障业务决策的准确性,并显著降低问题排查与资源重跑的成本。核心概念与工作...

Hive数据管理

PARQUET:列式存储格式,压缩率高,适合大数据分析。ORC:优化的列式存储格式,性能优异,支持复杂数据类型。AVRO:支持模式演化的二进制格式,适合动态数据结构。JSON:支持嵌套结构,适合半结构化数据。SELE_DEFINE:允许用户自定义序列...

配置MaxCompute输出

大数据计算服务MaxCompute(原名ODPS)为您提供完善的数据导入方案,能够快速解决海量数据的计算问题。前提条件 配置MaxCompute输出节点前,您需要先配置好相应的输入或转换数据源,详情请参见 实时同步能力说明。背景信息 写入数据不支持...

Vertica节点

背景信息 Vertica是一个高性能的列式存储数据库管理系统(DBMS),可高速处理和查询规模数据集,主要用于大数据分析和实时查询。更多介绍请参见 Vertica官网。前提条件 已创建业务流程。数据开发(DataStudio)基于业务流程执行不同引擎...

单表离线同步任务

数据集成的离线同步功能为您提供数据读取(Reader)和写入插件(Writer),方便您通过定义来源与去向数据源,并结合DataWorks调度参数使用,将源端数据库中全量或增量数据的同步至目标数据库中。本文为您介绍离线同步的相关能力。核心能力 ...

DataWorks On CDP/CDH使用说明

CDP是跨平台收集和整合客户数据的公共数据平台,可帮助您收集实时数据,并将其构建为单独的用户数据使用。您可在DataWorks中注册CDH及CDP集群,基于业务需求进行相关任务开发、调度、数据地图(元数据管理)和数据质量等一系列的数据开发和...

Celeborn介绍

Apache Celeborn是阿里云开源的中间数据服务,旨在提升大数据计算引擎的性能、稳定性和灵活性。Celeborn设计独立于具体引擎,支持Spark、Flink、MapReduce(MR)和 Tez,并且是目前最流行的Remote Shuffle Service的实现。Celeborn架构 ...

DB2节点

背景信息 DB2是一款关系型数据库管理系统(RDBMS),用于存储、检索及管理数据,适用于处理高吞吐量、大数据集以及数据仓库的复杂查询和事务处理。更多介绍请参见 DB2官网。前提条件 已创建业务流程。数据开发(DataStudio)基于业务流程...

DLF Catalog数据管理

PARQUET:列式存储格式,压缩率高,适合大数据分析。ORC:优化的列式存储格式,性能优异,支持复杂数据类型。AVRO:支持模式演化的二进制格式,适合动态数据结构。JSON:支持嵌套结构,适合半结构化数据。SELE_DEFINE:允许用户自定义序列...

SelectDB节点

背景信息 SelectDB是基于Apache Doris打造的新一代多云原生实时数据仓库,聚焦于满足企业级大数据实时分析需求,为您提供极致性价比、简单易用的数据分析服务。更多介绍,请参见 SelectDB。前提条件 已创建业务流程。数据开发(DataStudio...

数据同步至MaxCompute

DataWorks的数据同步至MaxCompute节点支持将Hologres中的单表数据迁移到MaxCompute,帮助您高效存储大数据。本文将详细介绍配置流程,让您轻松迁移数据并充分利用MaxCompute的高性能处理能力。前提条件 已 创建MaxCompute项目 和 Hologres...

GBase 8a节点

背景信息 GBase 8a是一款关系型数据库管理系统(RDBMS),支持大数据量存储和高并发读写能力,通常用于政府、金融、电信、能源等领域。GBase 8a支持SQL标准,并提供了一系列的企业级功能(例如,数据分区、负载均衡、灾备备份等)。更多...

数据同步至Hologres

DataWorks的数据同步节点支持将MaxCompute中的单表数据同步到Hologres,帮助您更高效地进行大数据分析和实时查询。本文将详细介绍配置流程,让您轻松迁移数据并充分利用Hologres的高性能查询能力。背景信息 在使用此功能将MaxCompute的内部...

SQL查询(新版)

对象存储OSS:将查询结果以指定格式(如CSV、Parquet)导出至阿里云对象存储OSS(Object Storage Service)空间,适用于大数据量归档或与其他云产品集成的场景。首次使用时,您需要为DataWorks进行授权,以允许其访问您的OSS资源。请在 ...

SelectDB数据

DataWorks数据集成支持使用SelectDB Writer导入表数据至SelectDB。本文为您介绍DataWorks的SelectDB数据同步能力支持情况。支持的SelectDB版本 SelectDB Writer使用的驱动版本是MySQL Driver5.1.47,驱动能力详情请参见 MySQL Connectors。...

Hologres数据管理

通过DataWorks数据源:如需管理当前工作空间中 已创建的Hologres数据源,可在 DataWorks数据源 页签找到对应的数据源,单击 操作 栏的 添加为数据目录 按钮完成添加。也可在 DataWorks数据源 页签勾选多个Hologres数据源,单击列表下方的 ...

管理元数据

元数据管理功能主要展示当前实例的所有数据库、数据表、分区及各种任务等信息,同时支持创建数据库和数据表,并定义其列及相关属性。前提条件 已创建StarRocks实例,详情请参见 创建实例。使用限制 普通用户无法查看数据库大小、缓存数据...

SQL查询(旧版)

对象存储OSS:将查询结果以指定格式(如CSV、Parquet)导出至阿里云对象存储OSS(Object Storage Service)空间,适用于大数据量归档或与其他云产品集成的场景。首次使用时,您需要为DataWorks进行授权,以允许其访问您的OSS资源。请在 ...

DataWorks On MaxCompute使用说明

DataWorks基于 云原生大数据计算服务MaxCompute 轻松构建离线数仓分析系统。MaxCompute可通过DataWorks提供的可视化方式配置任务工作流、周期性调度执行任务及元数据管理,保障数据生产及管理的高效稳定。本文为您介绍在DataWorks上开发...

DataWorks On Hologres使用说明

数据地图概述 安全中心 数据保护伞 审批中心 安全中心是集数据资产分级分类、敏感数据识别、数据授权管理、敏感数据脱敏、敏感数据访问审计、风险识别与响应于一体的一站式数据安全治理界面,帮助用户落地数据安全治理事项。安全中心概述 ...

资源组操作及网络连通

数据同步网络连通问题 在离线同步时,我们需要先了解哪些DataWorks及其网络能力?同步ECS自建的数据库的数据时,如何保障数据库与DataWorks的网络连通?数据库和DataWorks不在同一个地域(Region)下,进行数据同步时如何保障数据库与...

产品简介

该产品为企业提供了一站式的数据平台服务,包括任务开发、调试、调度及运维等功能,显著简化了数据处理与模型训练的全流程。同时,它100%兼容开源Spark生态,能够无缝集成到客户现有的数据平台。通过使用EMR Serverless Spark,企业可以...

数据推送节点

数据推送节点可将Data Studio业务流程中其他节点产生的数据查询结果,通过新建数据推送目标,将数据推送至钉钉群、飞书群、企业微信群、Teams以及邮件,便于团队成员及时接收和关注最新数据情况。背景信息 数据推送节点可以通过 节点上下文...

大数据安全治理的难点

存储 众所周知,大数据系统以数据类型多(结构化、非结构化、半结构化)、数据(动辄PB级别)著称,某些巨头组织一天就能新增数十万甚至数百万张表,如此体量给数据分级分类带来了极挑战,通过人工进行数据分级分类显然是不现实的,...

基本概念

数据资产:数据资源平台中存在大量的数据表、标签、API等各类数据资产,数据管理者通过数据汇聚、数据治理、数据分析后,需要对整个平台数据进行统一管控,了解平台的核心数据资产,提供对应的数据资产管理规范。统一服务 应用:是调用API...

功能简介

降低使用数据门槛:几乎每个业务每天都存在业务决策,需要大量的分析报告决策支撑,传统人工性质的商业分析已远远满足不了巨量的需求。利用智能算法能力自动生成洞察报告,极降低业务人员分析数据的门槛。智能化深度诊断和建议:...

数据导入

如果单表的数据量特别,或者需要为全局数据字典来精确去重可以考虑使用 Spark Load。实时数据导入:日志数据和业务数据库的Binlog同步到Kafka后,优先推荐通过 Routine Load 导入StarRocks。如果导入过程中有复杂的多表关联和ETL预处理...

Append Delta Table数据组织优化

即使用户对表的数据规模在当下了准确的评估,但是随着业务自身的演进,实际的数据规模也会持续变化,之前适用的Bucket数量设置在未来也可能不再适用。综上所述,静态的Bucket数量配置无论是在规模数据迁移场景,还是在业务快速变化的...

功能简介

数据资源平台中的数据标准、数据模型、数据加工场景、数据服务API、云计算资源配置等资产,经过验证最终可沉淀为一个特定的解决方案。支持通过不同的创建方式,灵活的选择解决方案中包含的内容。依托数据资源平台中管理的大量元数据,确保...

AI辅助处理

该功能在DataWorks数据集成链路中,原生集成了AI模型处理能力。它将传统的数据同步从简单的“搬运”升级为智能的“加工”,允许用户在数据从源到端的传输过程中,实时调用AI模型对流经的数据进行内容分析、处理与增强,在数据流转的过程...

API调用特殊参数说明

使用场景 交管云控平台使用数据资源平台统一服务作为数据服务发布、管理的平台,交通行业线的API开发者在为API服务编写查询SQL时,会选择使用比较基础的语法,例如只包含SELECT和WHERE条件一些简单的查询逻辑。等到API开发完成上线后,...

数据开发概述

Data Studio是阿里巴巴基于15年大数据经验打造的智能湖仓一体数据开发平台,兼容阿里云多项计算服务,提供智能化ETL、数据目录管理及跨引擎工作流编排的产品能力。通过个人开发环境实例支持Python开发、Notebook分析与Git集成,Data Studio...

数据开发(Data Studio)(新版)

Data Studio是阿里巴巴基于15年大数据经验打造的智能湖仓一体数据开发平台,兼容阿里云多项计算服务,提供智能化ETL、数据目录管理及跨引擎工作流编排的产品能力。通过个人开发环境实例支持Python开发、Notebook分析与Git集成,Data Studio...

产品服务等级协议

本服务等级协议(Service Level Agreement,以下简称“SLA”)约定了阿里云向客户提供的数据资源平台的服务可用性等级...如您不同意阿里云对SLA所的修改,您有权停止使用数据资源平台,如您继续使用数据资源平台,则视为您接受修改后的SLA。

Flume

Flume最终会将数据落地到实时计算平台(例如Flink、Spark Streaming和Storm)、离线计算平台上(例如MR、Hive和Presto),也可仅落地到数据存储系统中(例如HDFS、OSS、Kafka和Elasticsearch),为后续分析数据和清洗数据做准备。...

向量化处理

NULL值转为空字符串 由于模型向量化时不允许传入的数据为NULL,因此如果源表数据存在NULL,支持将其转为空字符串处理,避免向量化异常。默认不勾选。是否拼接字段名称 向量化时,是否需要拼接字段名称到文本中一起向量化。选中时,...
< 1 2 3 4 ... 200 >
共有200页 跳转至: GO
新人特惠 爆款特惠 最新活动 免费试用