大数据开源框架-大数据开源框架文档介绍内容-移动阿里云

使用Delta Lake

Delta Lake是一个开源存储框架，旨在数据湖之上构建LakeHouse架构。Delta Lake提供了ACID事务支持、可扩展的元数据处理功能，并能够在现有的数据湖（如OSS、Amazon S3和HDFS）上整合流处理与批处理。此外，Delta Lake还支持多种引擎，如...

BI工具集成

本章节展示如何将BI工具与大数据平台集成，构建高效的数据可视化解决方案。使用Power BI连接EMR Serverless Spark并进行数据可视化

组件操作

EMR提供的组件包括开源和自研两大类，涵盖数据开发、计算引擎、数据服务、资源管理、数据存储、数据集成等领域，您可以按需选择和配置。说明在创建集群时，如果没有您想使用的组件，或者想使用的开源组件仅对存量用户开放，您可以自行安装...

数据存储与访问

本章节介绍如何通过多种方式读写不同的数据存储系统，支持结构化、半结构化和非...涵盖主流大数据存储引擎的集成，满足多样化的业务需求。读写Doris 读写StarRocks 读写MaxCompute 读写HBase 读写MongoDB 读写MySQL 读写PostgreSQL 读写Kafka

安全责任共担

责任包括：针对阿里云安全中心发现的EMR大数据服务组件安全漏洞，发布相关公告，并提供相应的漏洞补丁及操作流程。基于完备的阿里云综合安全产品体系，保障EMR产品内部使用的计算、存储、网络等基础设施的安全性。基于阿里云账号认证体系，...

数据开发工作台（已停止新购）

EMR数据开发于2022年2月21日停止功能更新，2023年9月30日停止全面支持。如果您在2022年2月21日21点前未使用过数据开发功能，推荐您通过EMR Workflow进行...您也可以迁移到大数据开发治理平台DataWorks，详情请参见 EMR数据开发停止更新公告。

Alluxio（仅对存量用户开放）

背景信息在大数据生态系统中，Alluxio位于数据驱动框架或应用（例如Apache Spark、Presto、TensorFlow、Apache Flink和Apache Hive等）和各种持久化存储系统（例如HDFS和阿里云OSS）之间，使得上层的计算应用可以通过统一的客户端API和...

Zookeeper

数据组织 ZooKeeper的数据组织方式与标准文件系统类似，组织成类似文件树的结构，在ZooKeeper中使用znode（ZooKeeper node）来描述文件，与标准文件系统不同的是，znode并不区分目录或者文件的概念，每个znode都可以存储数据。ZooKeeper...

JindoCache

大数据分析（Hive/Spark 报表）：减少报表生成时间，优化计算集群成本。湖仓一体：减少请求费用，优化数据目录（catalog）的响应延迟。AI：加速训练等场景，降低AI集群使用成本，提供更全面的能力支持。缓存策略 JindoCache支持数据缓存...

EMR on ACK计费说明

通过阅读本文，您可以快速了解EMR on ACK的计费资源和相关产品计费等信息。计费资源 2024年04月01日起阿里云E-MapReduce（简称EMR）on...容器服务Kubernetes 基于ACK的资源安装部署大数据服务组件，并在容器内运行。收费详情请参见产品计费。

Spark

Spark是一个通用的大数据分析引擎，具有高性能、易用性和普遍性等特点。架构 Spark架构如下图所示，基于Spark Core构建了Spark SQL、Spark Streaming、MLlib和Graphx四个主要编程库，分别用于离线ETL（Extract-Transform-Load）、在线数据...

InstanceType

Big data：大数据型。Local SSDs：本地 SSD 型。High Clock Speed：高主频型。Enhanced：增强型。Shared：共享型。Compute-optimized with GPU：GPU 计算型。Visual Compute-optimized：视觉计算型。Heterogeneous Service：异构服务型。...

创建集群

Spark：是通用的分布式大数据处理引擎，提供了ETL、离线批处理和数据建模等能力。重要创建Spark集群后，如果您需要关联集群，则所选产品版本的大版本号需要和关联的Shuffle Service集群大版本号一致。例如，EMR-5.x-ack版本的Spark集群...

使用老版DataWorks

通过本教程，您可以了解如何使用DataWorks和EMR Serverless Spark产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从...

使用新版DataWorks

通过本教程，您可以了解如何使用DataWorks和EMR Serverless Spark产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从...

Hive统一元数据

EMR上可以支持将数据存放在阿里云OSS中，在大数据量的情况下将数据存储在OSS上会大大降低使用的成本，EMR集群主要用来作为计算资源，在计算完成之后可以随时释放，数据在OSS上，同时也不用再考虑元数据迁移的问题。数据共享。使用统一的...

冷热分层

背景信息在海量大数据场景下，随着业务和数据量的不断增长，性能和成本的权衡成为大数据系统设计面临的关键挑战。Delta Lake是新型数据湖方案，推出了数据流入、数据组织管理、数据查询和数据流出等特性，同时提供了数据的ACID和CRUD操作...

为Spark集群设置元数据

横向使用多种大数据计算引擎时，元数据可以集中管理。例如，MaxCompute、Hologres和人工智能平台 PAI 等。多个EMR集群时，可以统一管理元数据。前提条件已在E-MapReduce on ACK控制台创建Spark集群，详情请参见步骤一：创建集群。使用...

在EMR Hive或Spark中访问OSS-HDFS

EMR-3.42及后续版本或EMR-5.8.0及后续版本的集群，支持OSS-HDFS（JindoFS服务）作为数据存储，提供缓存加速服务和Ranger鉴权功能，使得在Hive或Spark等大数据ETL场景将获得更好的性能和HDFS平迁能力。本文为您介绍E-MapReduce（简称EMR）...

选择业务场景

若您的业务需集成特定组合的组件，您可创建自定义集群，灵活组合EMR提供的组件，打造适配业务特性的大数据平台。本文将为您介绍这些集群的区别，帮助您快速选型。业务场景选型业务场景（集群类型）支持的组件核心能力适用场景数据湖...

通过DMS连接StarRocks实例

数据管理DMS（Data Management）是一款支撑数据全生命周期的一站式数据管理平台。您只需在DMS控制台录入StarRocks实例的相关信息，即可轻松实现通过图形化的Web界面对StarRocks实例的高效管控与深度运维，极大提升数据管理体验及操作效率。...

测试案例

背景介绍 TPC-DS是一套决策支持系统的基准测试，它对决策支持系统的几个通用方面进行建模，包括查询和数据维护，用于衡量大数据产品的分析性能。TPC-DS模拟了零售企业三种销售渠道（实体店、互联网、目录）的销售和退货业务，除了建立相关...

Doris

Apache Doris是一个高性能、实时的分析型数据库，能够较好的满足报表分析、即席查询、数据湖联邦查询加速等使用场景。本文为您介绍Apache Doris。背景信息关于更多Apache Doris信息，详情请参见 Doris介绍。使用场景数据源经过各种数据...

JindoFS外部客户端

设置环境变量 BIGBOOT_HOME 为程序安装根目录，将程序根目录下 ext 和 lib 的路径，添加到用户使用的大数据组件（Hadoop或Spark等）的 Classpath 中。从E-MapReduce集群内部拷贝配置文件/usr/lib/bigboot-current/conf/bigboot.cfg....

选择地域和存储

使用场景在EMR控制台的节点组配置中，当附录：ECS实例类型选择 大数据型、本地SSD 时，其数据盘为物理直连的本地盘，直接挂载于服务器，提供极低延迟与高吞吐性能。说明本地盘仅适用于核心节点（Core）或任务节点（Task）。本地盘有...

JindoFS缓存模式

元数据同步策略缓存模式下可能存在JindoFS集群构建之前，您已经在OSS上保存了大量数据的场景，对于这种场景，后续的数据访问会同步数据和元数据到JindoFS集群，数据同步策略为了访问数据都会在本地保留一份；元数据同步策略分为两部分，...

实例规格规划及建议

预估公式 CU总数=扫描数据总行数/CPU处理能力/预期响应时间*QPS（每秒查询次数）涉及参数说明如下：扫描数据总行数：每个SQL预期扫描的数据总行数，需注意该数据量并非指单表的总数据量，而仅限于实际需要扫描的数据量。CPU处理能力：该值...

准备环境

本教程提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用，所有数据均为人工Mock数据。本教程使用数据开发（Data Studio）（新版）进行数据加工。OSS对象存储环境准备本教程需要您创建一个OSS Bucket，后续会将用户信息...

准备环境

本实验提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用，所有数据均为人工Mock数据。本实验使用数据开发（DataStudio）（旧版）进行数据加工。EMR环境准备创建EMR集群本教程需要您创建一个EMR集群，用于集成到...

开启部署集

g8a、g8i、g8ae、g8y c8a、c8i、c8ae、c8y r8a、r8i、r8ae、r8y i4 hfc8i、hfg8i、hfr8i ebmgn7ex、ebmc7、ebmg7、ebmr7 注意事项如果您的集群数据存储方案为本地HDFS存储方案，且Core节点使用了本地盘机型（大数据型、本地SSD），建议您...

管理元数据

元数据管理功能主要展示当前实例的所有数据库、数据表、分区及各种任务等信息，同时支持创建数据库和数据表，并定义其列及相关属性。前提条件已创建StarRocks实例，详情请参见创建实例。使用限制普通用户无法查看数据库大小、缓存数据...

ApproximateDataSize zk_approximate_data_size ZooKeeper大致的数据大小。单位：Byte。OpenFileDescriptorCount zk_open_file_descriptor_count ZooKeeper打开文件数量。MaxFileDescriptorCount zk_max_file_descriptor_count ZooKeeper...

Query Profile介绍

说明 Operator花费的时间比例越大，其对应颜色就越深（支持对执行耗时排名前三的节点标注颜色）。您可以借此轻松确认查询的瓶颈。通过鼠标滚动，或单击放大和缩小按钮，可以放大和缩小Profile树。重要指标 Query级别 Summary指标指标说明...

JindoFS介绍和使用

JindoFS是基于阿里云对象存储OSS，为开源大数据生态构建的Hadoop兼容文件系统（Hadoop Compatible File System，HCFS）。JindoFS提供兼容对象存储的纯客户端模式（SDK）和缓存模式（Cache），以支持与优化Hadoop和Spark生态大数据计算对OSS...

Alibaba Cloud Linux 3软件兼容性列表

数据库 GoldenDB分布式数据库 V6 金篆信科有限责任公司数据库 MariaDB 10.5.22 开源组件数据库 MongoDB 3.6.8 开源组件数据库 MySQL 8.0.36 开源组件数据库 PostgreSQL 13.16 开源组件数据库 Redis 6.2.7 开源组件 大数据平台阿里云...

Hive

Hive是一个基于Hadoop的数据仓库框架，在大数据业务场景中，主要用来进行数据提取、转化和加载（ETL）以及元数据管理。Hive结构名称说明 HiveServer2 HiveQL查询服务器，可以配置为Thrift或者HTTP协议，接收来自JDBC客户端提交的SQL请求...

JindoFS实战演示

2021-07-13 在AI训练场景中处理HDFS数据面临很多问题，例如计算存储分离，数据读取性能较差，无法满足AI训练作业的IO性能、很多深度学习训练框架并不适配原生HDFS接口，大大增加了开发难度、HDFS集群压力大，甚至存在稳定性问题。...

开源支持

MaxCompute是阿里巴巴自研的一站式的快速、完全托管的TB/PB/EB级数据仓库解决方案。本文将为您介绍MaxCompute相关的开源功能。SDK MaxCompute提供Java SDK和Python SDK接口实现创建、查看、删除MaxCompute表等操作。通过SDK，您可以通过...

Celeborn介绍

Apache Celeborn是阿里云开源的中间数据服务，旨在提升大数据计算引擎的性能、稳定性和灵活性。Celeborn设计独立于具体引擎，支持Spark、Flink、MapReduce(MR)和 Tez，并且是目前最流行的Remote Shuffle Service的实现。Celeborn架构 ...

数据上云工具

MaxCompute平台支持丰富的数据上传和下载工具（其中大部分工具已经在GitHub公开源代码，以开源社区的方式进行维护）。您可以根据实际应用场景，选择合适的工具进行数据的上传和下载。阿里云数加产品 MaxCompute客户端（Tunnel通道系列）...