大数据平台总体结构

_相关内容

DataWorks交流钉钉群

DataWorks作为阿里云大数据平台操作系统,对接各种大数据计算引擎,以all in one box的方式提供专业高效、安全可靠的全域智能大数据平台,高效率完成数据全链路研发流程,建设企业数据治理体系,同时提供优质高效的交流服务,本文为您介绍...

相关的云服务

本文为您介绍典型场景下,使用开源大数据平台E-MapReduce时通常会使用到的其他云服务。云服务名称 说明 云服务器ECS 使用云服务器ECS(Elastic Compute Service)作为集群的节点,每个ECS实例集群中的一个节点。专有网络VPC 专有网络VPC...

产品简介

大数据专家服务 大数据专家服务(Bigdata Expert Service)是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户...,赋能技术团队具备大数据平台建设、架构设计、AI算法建模以及运维保障能力...

发展历程

关键性里程碑 2009年9月,ODPS(即现在的MaxCompute)大数据平台飞天项目正式启动。2010年10月,阿里巴巴集团自主研发的第一代云计算平台稳定运行。2013年8月,平台的单集群规模已达到5000台。2014年7月,平台开始对外提供服务,完全替换...

什么是阿里云Cloudera CDP

企业数据平台Cloudera Data Platform(简称阿里云CDP),是阿里云和Cloudera联合打造的阿里云上的大数据平台。Cloudera CDP企业数据平台 Cloudera企业数据云是社区版CDH的全新商业化升级产品,是阿里云和Cloudera联合打造阿里云上的...

什么是EMR on ACK

阿里云E-MapReduce(简称EMR)on ACK提供了全新构建大数据平台的方式。您可以将开源大数据服务部署在阿里云容器服务Kubernetes版(ACK)之上,利用ACK在服务部署和容器应用管理的优势,减少对底层集群资源的运维投入,以便于您可以更加专注...

基于MaxCompute进行大数据BI分析

通过MaxCompute、AnalyticDB MySQL强大的数据加工和分析能力,降低大数据平台建设的门槛,轻松解决了海量数据的计算问题。同时有效降低企业成本,并保障数据安全。与第三方开源生态无缝对接,在不侵入用户应用的情况下,传输日志至日志服务...

EMR Doctor概述

E-MapReduce Doctor(简称EMR Doctor)是E-MapReduce产品自研的面向开源大数据集群的智能运维诊断系统。通过EMR Doctor(即集群管理...通过对集群中各种信息进行融合分析,并根据智能算法进行智能诊断分析,减少大数据平台繁重和重复的劳动。

简介

系统兼容开源GeoMesa、GeoServer等生态,内置了高效的时空索引算法、空间拓扑几何算法、遥感影像处理算法等,结合云数据库HBase强大的分布式存储能力以及Spark分析平台能力,广泛应用于空间、时空、遥感大数据存储、查询、分析与数据挖掘...

项目分配与安全

在为企业级大数据平台创建项目时,建议您对ODS层、DWD及DWS层的数据按照业务板块的粒度建立项目,对于ADS层的数据,按照应用的粒度建立项目。项目分配 在本教程中,建议参考下图建立您的MaxCompute项目,图中的每一个方块代表一个项目。...

ClickHouse概述

开源大数据平台E-MapReduce(简称EMR)的ClickHouse提供了开源OLAP分析引擎ClickHouse的云上托管服务。EMR ClickHouse完全兼容开源版本的产品特性,同时提供集群快速部署、集群管理、扩容、缩容和监控告警等云上产品功能,并且在开源的基础...

客户案例

MaxCompute已被广泛应用于各领域处理云上大数据,帮助众多企业解决了海量数据分析问题,同时降低企业运维成本,企业人员可更专注于业务开发。本文为您介绍MaxCompute的精选客户案例。MaxCompute的全量客户案例信息,请参见 行业客户案例...

应用场景

阿里云开源大数据平台E-MapReduce(简称EMR)具有广泛的应用场景。本文为您介绍EMR的主要应用场景。数据湖场景 DataLake集群类型提供了数据湖分析场景所需的服务和相关湖格式,包括Hadoop、OSS-HDFS、Hive、Spark、Presto等。通过选择OSS-...

审批中心概述

您可以直接使用DataWorks官方提供的扩展程序来对高危行为进行管控,也可以基于DataWorks开放平台自行开发、部署能够应对更加复杂场景的扩展程序作为风险识别规则,从而将自身企业内部风控平台能力延伸至云上DataWorks大数据平台。...

风险识别规则

您可以直接使用DataWorks官方提供的扩展程序来对高危行为进行管控,也可以基于DataWorks开放平台自行开发、部署能够应对更加复杂场景的扩展程序作为风险识别规则,从而将自身企业内部风控平台能力延伸至云上DataWorks大数据平台。...

JindoFS实战演示

云上计算云下数据:HDFS缓存加速 云上计算云下数据:HDFS缓存加速 2021-06-29 随着云计算越来越成熟,带来弹性扩容、运维方便、节省成本等优点,越来越多企业开始将大数据平台搬到云上。云下的HDFS集群存在历史数据,其中可能包含敏感数据...

Hadoop集群迁移至DataLake集群

背景信息 E-MapReduce(简称EMR)新版控制台是EMR发布的下一代云原生开源大数据平台,为用户提供全新平台体验、全新开发平台、全新资源形态和全新分析场景。新版控制台的功能特点,详情请参见 EMR新版控制台上线公告。EMR on ECS作为EMR...

冷热分层

更多介绍请参见 结构大数据分析平台设计、面向海量数据的极致成本优化-云HBase的一体化冷热分离 和 云上如何做冷热数据分离。冷热数据 数据按照实际访问的频率可以分为热数据、温数据和冷数据。其中冷数据数据量较,很少被访问,甚至...

产品概述

什么是E-MapReduce 开源大数据开发平台E-MapReduce(简称EMR),是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理...

产品简介

开源大数据开发平台E-MapReduce(简称EMR)是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

DataWorks模块使用说明

使用流程概览:参考文档:DataWorks数据建模 子模块:数据开发(DataStudio)功能说明:数据开发(DataStudio)是一站式大数据开发平台,支持在线开发MaxCompute、EMR、Hologres、CDP、ADB等多种大数据引擎的数据处理任务。它集成了强大的...

什么是数据资源平台

阿里云数据资源平台数据资产定义、加工、管理、服务的全流程平台,提供数据同步、数据查询、数据标准、数据建模、数据加工、质量评估、业务模型构建、资产管理、数据服务等功能,为智能数据应用持续稳定供给全量、标准、干净、智能的数据...

选型配置说明

HDFS、YARN、Hive、Spark、Presto、Impala、JindoData、DeltaLake、Hudi、Iceberg、OpenLDAP、Knox、Kyuubi等 Dataflow 实时数据流场景,其中核心组件Flink是阿里云提供的基于Apache Flink和E-MapReduce Hadoop构建的企业级大数据计算平台...

X-Engine简介

数据组织 X-Engine的每层都划分成固定大小的Extent,存放每个层次中的数据的一个连续片段(Key Range)。为了快速定位Extent,为每层Extents建立了一套索引(Meta Index),所有这些索引,加上所有的memory tables(active/immutable)一起...

什么是DataWorks

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。从2009年起,DataWorks不断沉淀阿里巴巴大数据建设方法论,支撑数据中台建设,同时与...

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks,完成整体数据建模和研发流程。完整的技术架构图如下图所示。其中,DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

PolarDB PostgreSQL版(兼容Oracle)间的迁移

通过数据传输服务DTS(Data Transmission Service),可以实现 PolarDB PostgreSQL版(兼容Oracle)集群间的迁移。背景信息 PolarDB PostgreSQL版(兼容Oracle)作为一款企业级关系型数据库管理系统,具有广泛的应用和强大的社区支持。每个...

PolarDB PostgreSQL版间的迁移

通过数据传输服务DTS(Data Transmission Service),可以实现 PolarDB PostgreSQL版 集群间的迁移。前提条件 已创建源和目标 PolarDB PostgreSQL版 数据库集群,详情请参见 创建PolarDB PostgreSQL版数据库集群。已将源和目标 PolarDB ...

2023年

2023-03-30 全部地域 向量计算(Proxima CE)概述 支持External Volume非结构数据存储能力 External Volume是MaxCompute提供的非结构大数据存储方案,是OSS路径在数仓中的映射和管理对象。2023-03-30 全部地域 External Volume操作 ...

01创建解决方案

将应用、服务、数据源等资源生成整体解决方案包,便于在其他系统或工作组中快速部署。本文以按应用关联为例,介绍如何创建解决方案。前提条件 已创建“信息中心(xxzx)”工作组,具体操作,请参见 新建工作组并添加成员。线上场景已上线,...

快速体验

数据治理:大数据开发治理平台 DataWorks数据质量(必选)、大数据开发治理平台 DataWorks数据地图(必选)、大数据开发治理平台 DataWorks数据保护伞(必选),基础版DataWorks已包含。数据展示:智能分析套件Quick BI(必选),您可根据...

查看敏感数据识别结果

仅支持在 结构数据、半结构数据、非结构数据大数据 分类下分别选择一个或多个数据类型,不支持跨分类同时选择多个数据类型。如果您未选中任意数据类型,数据安全中心默认展示所有数据类型下的敏感数据识别结果。数据模板:在 ...

E-MapReduce本地盘实例规模数据集测试

大数据基准测试用于公平、客观评测不同大数据产品/平台的功能和性能,对用户选择合适的大数据平台产品具有重要的参考价值,TPC-DS逐渐成为了业界公认的大数据系统测试基准。本文以阿里云E-MapReduce+D1本地盘方案模拟TPC-DS测试的演示方案...

数据仓库研发规范概述

大数据时代,规范地进行数据资产管理已成为推动互联网、大数据、人工智能和实体经济深度融合的必要条件。贴近业务属性、兼顾研发各阶段要点的研发规范,可以切实提高研发效率,保障数据研发工作有条不紊地运作。而不完善的研发流程,会...

产品优势

支持防护常见的结构数据、非结构数据大数据产品,例如对象存储OSS、云数据库RDS、MaxCompute等。智能化 运用大数据和机器学习能力,通过智能化的算法,对敏感数据和高风险活动,例如数据异常访问和潜在的泄露风险进行有效识别和监控...

DataWorks快速入门指引

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台,为了便于新用户快速了解DataWorks的数据开发治理操作全流程,DataWorks为您提供了...

概述

EMR数据开发于2022年2月21日停止功能更新,2023年9月30日停止全面支持。如果您在2022年2月21日21点前未使用过数据开发功能,推荐您通过EMR Workflow进行...您也可以迁移到大数据开发治理平台DataWorks,详情请参见 EMR数据开发停止更新公告。

云产品集成

常见云产品如下:大数据开发治理平台 DataWorks 实时计算 Flink 版 数据库管理 DMS DataV 数据可视化 Quick BI 数据分析与展现 前提条件 已获取 OceanBase 数据库的基本连接信息,详细步骤请参见 获取连接参数。大数据开发治理平台 ...

什么是EMR Notebook

EMR Notebook是一个Serverless化的交互式数据分析和探索平台,满足大数据和AI融合下的数据处理需求,为数据工程师、数据分析师和数据科学家提供了可视化的应用程序开发环境。通过EMR Notebook可以完成对SQL、Python、Markdown等多种语言...

EMR数据开发停止更新公告

作为一站式大数据开发治理平台,DataWorks沉淀阿里巴巴十多年大数据建设方法论,为客户完成从入湖、建模、开发、调度、治理、安全等全链路数据湖开发治理能力,帮助客户提升数据的应用效率。迁移流程 阿里云DataWorks on EMR团队提供了完善...
< 1 2 3 4 ... 200 >
共有200页 跳转至: GO
新人特惠 爆款特惠 最新活动 免费试用