大数据的软件平台-大数据的软件平台文档介绍内容-移动阿里云

Cloudera CDP 企业数据云平台

企业数据云平台Cloudera Data Platform（简称阿里云CDP），是阿里云和Cloudera联合打造阿里云上的大数据平台。

产品简介

大数据专家服务 大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户...，赋能技术团队具备大数据平台建设、架构设计、AI算法建模以及运维保障能力...

什么是EMR on ACK

阿里云E-MapReduce（简称EMR）on ACK提供了全新构建大数据平台的方式。您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注...

选择业务场景

若您的业务需集成特定组合的组件，您可创建自定义集群，灵活组合EMR提供的组件，打造适配业务特性的大数据平台。本文将为您介绍这些集群的区别，帮助您快速选型。业务场景选型业务场景（集群类型）支持的组件核心能力适用场景数据湖...

文件

DataWorks 文件是专为大数据平台设计的、支持多计算节点共享访问的文件存储服务。本文系统阐述了其核心概念、应用场景、功能特性与操作方法，助您构建统一、高效的数据开发与协作环境。

基于MaxCompute进行大数据BI分析

通过MaxCompute、AnalyticDB MySQL强大的数据加工和分析能力，降低大数据平台建设的门槛，轻松解决了海量数据的计算问题。同时有效降低企业成本，并保障数据安全。与第三方开源生态无缝对接，在不侵入用户应用的情况下，传输日志至日志服务...

DataWorks交流钉钉群

DataWorks作为阿里云大数据平台操作系统，对接各种大数据计算引擎，以all in one box的方式提供专业高效、安全可靠的全域智能大数据平台，高效率完成数据全链路研发流程，建设企业数据治理体系，同时提供优质高效的交流服务，本文为您介绍...

开源大数据平台 E-MapReduce

开源大数据平台E-MapReduce（Elastic MapReduce）是运行在阿里云平台上的一种大数据处理的系统解决方案。

JindoData（仅对存量用户开放）

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括JindoFS存储系统（原JindoFS Block模式）、...

EMR Workbench

阿里云EMR Workbench是一个综合性的大数据分析和开发环境，作为阿里云E-MapReduce的一部分，它提供了EMR Notebook和EMR Workflow两个核心功能。通过EMR Workbench，您可以轻松进行数据开发，以及交互式数据分析，并设计复杂的数据处理工作...

研发规范

在大数据时代，规范地进行数据资产管理已成为推动互联网、大数据、人工智能和实体经济深度融合的必要条件。贴近业务属性、兼顾研发各阶段要点的研发规范，可以切实提高研发效率，保障数据研发工作有条不紊地运作。而不完善的研发流程，会...

产品简介

开源大数据开发平台E-MapReduce（简称EMR）是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

Spark

Spark是一个通用的大数据分析引擎，具有高性能、易用性和普遍性等特点。架构 Spark架构如下图所示，基于Spark Core构建了Spark SQL、Spark Streaming、MLlib和Graphx四个主要编程库，分别用于离线ETL（Extract-Transform-Load）、在线数据...

大数据开发治理平台 DataWorks系统权限策略参考

本文描述大数据开发治理平台 DataWorks支持的所有系统权限策略及其对应的权限描述，供您授权 RAM 身份时参考。什么是系统权限策略权限策略是用语法结构描述的一组权限的集合，可以精确地描述被授权的资源集、操作集以及授权条件。阿里云...

Doris

统一数仓构建：一个平台满足统一的数据仓库建设需求，简化繁琐的大数据软件栈。基于Doris构建的统一数仓，替换了原来由Spark、Hive、Kudu、Hbase、Phoenix组成的旧架构，架构大大简化。数据湖联邦查询：通过外表的方式联邦分析位于Hive、...

HDFS

HDFS（Hadoop Distributed File System）是一种Hadoop分布式文件系统，具备高度容错特性，支持高吞吐量数据访问，可以在处理海量数据（TB或PB级别以上）的同时最大可能的降低成本。HDFS适用于大规模数据的分布式读写，特别是读多写少的场景...

使用资源组进行精细化资源控制

支持资源组的资源类型 大数据开发治理平台DataWorks支持资源组的资源类型如下表所示：云服务云服务代码资源类型 大数据开发治理平台DataWorks dide Proyek:大数据开发治理平台DataWorks dide dwresourcegroup:DataWorks资源组 大数据开发...

SelectDB数据源

DataWorks数据集成支持使用SelectDB Writer导入表数据至SelectDB。本文为您介绍DataWorks的SelectDB数据同步能力支持情况。支持的SelectDB版本 SelectDB Writer使用的驱动版本是MySQL Driver5.1.47，驱动能力详情请参见 MySQL Connectors。...

DataWorks模块使用指引

DataWorks 是阿里云提供的一站式大数据开发与治理平台，旨在帮助用户解决从数据接入、处理、治理到服务化的全链路数据问题。它通过一系列高度协同的功能模块，将复杂的数据工程流程化、可视化，显著降低了大数据开发的门槛。本文将为您逐一...

什么是EMR Serverless StarRocks

EMR Serverless StarRocks是开源StarRocks在阿里云上的全托管服务，您可以通过其灵活地创建和管理实例以及数据。本文为您介绍StarRocks的核心特性，并详述EMR Serverless StarRocks在此基础之上所引入的诸多增强功能与服务优势。前置概念 ...

Amazon Redshift数据源

Amazon Redshift数据源为您提供读取和写入Amazon Redshift的双向通道，方便您后续可以通过向导模式和脚本模式配置数据同步任务。本文为您介绍Amazon Redshift数据同步能力支持情况。支持的Amazon Redshift版本 Amazon Redshift使用的驱动...

解决方案

数据资源平台中的数据标准、数据模型、数据加工场景、数据服务API、云计算资源配置等资产，经过验证最终可沉淀为一个特定的解决方案。支持通过不同的创建方式，灵活的选择解决方案中包含的内容。依托数据资源平台中管理的大量元数据，确保...

离线同步并发和限流之间的关系

限制和最佳实践：分布式执行模式下，配置较大任务并发度可能会对您的数据存储产生较大的访问压力，请评估数据存储的访问负载。如果您的独享资源组机器台数为1，不建议使用分布式执行模式，因为执行进程仍然分布在一台Worker节点上，无法...

Hologres数据管理

通过DataWorks数据源：如需管理当前工作空间中已创建的Hologres数据源，可在 DataWorks数据源页签找到对应的数据源，单击操作栏的添加为数据目录按钮完成添加。也可在 DataWorks数据源页签勾选多个Hologres数据源，单击列表下方的 ...

功能简介

数据资源平台中的数据标准、数据模型、数据加工场景、数据服务API、云计算资源配置等资产，经过验证最终可沉淀为一个特定的解决方案。支持通过不同的创建方式，灵活的选择解决方案中包含的内容。依托数据资源平台中管理的大量元数据，确保...

数据质量

DataWorks 数据质量（DQC）是一个强大的数据监控和保障平台。它能帮助您在数据生产链路中主动发现并拦截不符合预期的“脏数据”，避免问题数据向下游扩散，从而保障业务决策的准确性，并显著降低问题排查与资源重跑的成本。核心概念与工作...

云产品集成

常见云产品如下：大数据开发治理平台 DataWorks 实时计算 Flink 版数据库管理 DMS DataV 数据可视化 Quick BI 数据分析与展现前提条件已获取 OceanBase 数据库的基本连接信息，详细步骤请参见获取连接参数。大数据开发治理平台 ...

准备工作

云企业网通过CEN实现本地IDC与DTS云服务互通添加DTS服务器的IP地址段数据迁移数据同步数据订阅数据校验云企业网CEN 数据库网关通过数据库网关将本地IDC或第三方云的数据库接入至阿里云添加DTS服务器的IP地址段数据迁移数据同步 ...

数据推送节点

数据推送节点可将Data Studio业务流程中其他节点产生的数据查询结果，通过新建数据推送目标，将数据推送至钉钉群、飞书群、企业微信群、Teams以及邮件，便于团队成员及时接收和关注最新数据情况。背景信息数据推送节点可以通过节点上下文...

DataWorks On EMR使用说明

背景信息开源大数据开发平台E-MapReduce（简称EMR），是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。阿里云...

大数据开发治理平台 DataWorks

大数据开发治理平台 DataWorks基于MaxCompute/EMR/Hologres等大数据计算引擎，为客户提供专业高效、安全可靠的一站式大数据开发与治理平台，自带阿里巴巴数据中台与数据治理最佳实践，赋能各行业数字化转型。每天阿里巴巴集团内部有数万名...

BI工具集成

本章节展示如何将BI工具与大数据平台集成，构建高效的数据可视化解决方案。使用Power BI连接EMR Serverless Spark并进行数据可视化

什么是数据资源平台

协同数据同步：数据同步可实现离线、实时多源异构数据的便捷同步或接入，系统可提供完善的数据接入配置、数据模板配置、数据同步任务运行监控等功能，有效保障数据接入的稳定性和可控性，满足各类平台、数据源及应用系统间的数据汇聚需求...

大数据AI公共数据集分析

教程简介阿里云DataWorks基于多种大数据引擎，为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。本教程通过DataWorks，联合云原生大数据计算服务MaxCompute，使用大数据AI公共数据集（淘宝、飞猪、阿里音乐、...

Paimon

目前阿里云开源大数据平台E-MapReduce常见的计算引擎（例如Flink、Spark、Hive或Trino）都与Paimon有着较为完善的集成度。您可以借助Apache Paimon快速地在HDFS或者云端OSS上构建自己的数据湖存储服务，并接入上述计算引擎实现数据湖的分析...

产品服务等级协议

（3）任何数据资源平台以外原因引起的，比如：由数据资源平台所依赖的上下游软件产品故障或配置调整引起的；数据同步模块中由于源端数据库或目的端数据库自身原因导致的；数据同步模块中，由于源端数据库或者目的端数据库用户名、密码修改...

客户案例

价值体现从大数据平台上云整体“降本增效”的方案快速切入，迁移到大数据MaxCompute、实时计算、DataWorks后，部分任务有10倍以上的性能提升，存储从自建Hadoop 3PB降到900T，利用Flink实时数据处理能力，将宝宝树现有的场景实时化（...

什么是DataWorks

中国国际大数据产业博览会十佳大数据案例中国信通院：数据集成工具、数据管理工具、数据开发平台、数据脱敏工具、数据分类分级等评测更多阅读云计算主题概念了解：数据湖、数据仓库、数据中心。DataWorks概念和产品生态：基本概念、产品...

核心能力

数据资源平台提供了一站式数据资产定义、生产、管理与服务平台，提供企业级数据资产构建能力和一致性使用体验，助力客户快速构建数据智能平台，实现数据资源统一管理，挖掘潜在规律，优化业务决策，让大数据真正的驱动客户业务。...

大数据专家服务

大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障，帮助用户构建和持续优化的大...