数据分析开源项目-数据分析开源项目文档介绍内容-移动阿里云

删除数据开发项目

调用DeleteFlowProject接口，删除数据开发项目。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。请求参数名称类型是否必选示例值描述 Action String ...

创建数据开发项目

调用CreateFlowProject接口，创建数据开发项目。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。请求参数名称类型是否必选示例值描述 Action String ...

StarRocks

集群规模可以灵活伸缩，支持10 PB级别的数据分析。支持MPP框架，并行加速计算。支持多副本，具有弹性容错能力。说明本文部分内容来源于开源StarRocks的什么是StarRocks。StarRocks特性 StarRocks的架构设计融合了MPP数据库，以及分布式...

ClickHouse

开源大数据平台E-MapReduce（简称EMR）的ClickHouse提供了开源OLAP分析引擎ClickHouse的云上托管服务。EMR ClickHouse完全兼容开源版本的产品特性，同时提供集群快速部署、集群管理、扩容、缩容和监控告警等云上产品功能，并且在开源的基础...

数据分析

查询外部数据如果需要查询存储在外部数据源中的数据，请参见数据湖分析。跨Catalog查询数据如果想在一个Catalog中查询其他Catalog中的数据，可通过 catalog_name.db_name 或 catalog_name.db_name.table_name 的格式来引用目标数据。...

查询OSS数据

本文为您介绍如何使用StarRocks的数据湖分析能力查询阿里云OSS。前提条件已创建StarRocks集群，详情请参见创建StarRocks集群。说明此文档仅适用于EMR-5.12.0之前版本或EMR-3.46.0之前版本的StarRocks集群。已开通OSS服务，详情请参见 ...

启用Trino语法进行数据湖分析

StarRocks 3.x版本在进行数据湖分析时，支持兼容Trino语法。本文介绍如何在StarRocks中利用Trino语法进行数据湖分析，特别是针对从Trino迁移至StarRocks的用户，旨在实现无缝切换且无需更改原有SQL语句。前提条件已创建存算分离版实例，...

支持倚天云服务器

阿里云E-MapReduce支持使用倚天云服务器构建开源大数据集群。适用客户全网用户新增功能/规格阿里云E-MapReduce（简称EMR）支持使用倚天云服务器构建开源大数据集群。与现有X86架构实例体验完全相同的情况下，具有更高的性价比，帮助用户...

Flink

实时数据分析 实时数据分析指的是根据业务目标，从原始数据中抽取对应信息并整合的过程。例如，查看每天销量前10的商品、仓库平均周转时间、文档平均单击率和推送打开率等。实时数据分析则是上述过程的实时化，通常在终端体现为实时报表或...

产品形态选型

该服务适用于多种场景，包括 OLAP 分析、实时数据仓库、湖仓分析以及轻量级数据仓库建设等，旨在助力企业实现湖仓一体的实时数据分析业务。主要特性全托管免运维：开箱即用，提供可视化实例管理、智能监控与健康诊断，大幅降低运维成本。...

EMR Serverless StarRocks服务等级协议更新

《开源大数据平台E-MapReduce Serverless服务等级协议》已于2024年02月02日修订，并将于2024年03月01日生效。当前服务等级协议详情，请在服务等级协议中查看。变更生效时间 2024年03年01日变更范围 EMR Serverless StarRocks（标准版）...

Trino

应用场景 Trino是定位在数据仓库和数据分析业务的分布式SQL引擎，适合以下应用场景：ETL Ad-Hoc查询海量结构化数据或半结构化数据分析 海量多维数据聚合或报表分析重要 Trino是一个数仓类产品，因为其对事务支持有限，所以不适合在线业务...

产品架构

数据湖分析版：通过StarRocks外部表，直接读取数据湖（例如对象存储或HDFS）中的Hive格式或湖格式的数据，采用DataLake Table Format。StarRocks实例：全部实例（包括前端FE，后端BE或CN）都在云端托管，实现免运维。通过计算组（Warehouse...

查看账单

在账单详情页签中，设置账单月份，并在列表中筛选产品为开源大数据平台 E-MapReduce，然后基于您的实际需求选择产品明细。您还可以通过统计项和统计周期选择账单的展示内容。账单详细内容，可参见费用与成本的账单管理。相关文档 ...

E-MapReduce Serverless StarRocks服务等级协议（SLA...

2023年6月1日起，E-MapReduce Serverless StarRocks服务等级协议（SLA）生效。详情请参见开源大数据平台E-MapReduce Serverless服务等级协议。

Presto

应用场景 Presto是定位在数据仓库和数据分析业务的分布式SQL引擎，适合以下应用场景：ETL Ad-Hoc查询海量结构化数据或半结构化数据分析 海量多维数据聚合或报表分析重要 Presto是一个数仓类产品，因为其对事务支持有限，所以不适合在线...

开源大数据平台 E-MapReduce系统权限策略参考

本文描述开源大数据平台 E-MapReduce支持的所有系统权限策略及其对应的权限描述，供您授权 RAM 身份时参考。什么是系统权限策略权限策略是用语法结构描述的一组权限的集合，可以精确地描述被授权的资源集、操作集以及授权条件。阿里云访问...

开源大数据平台 E-MapReduce系统权限策略参考

本文描述开源大数据平台 E-MapReduce支持的所有系统权限策略及其对应的权限描述，供您授权 RAM 身份时参考。什么是系统权限策略权限策略是用语法结构描述的一组权限的集合，可以精确地描述被授权的资源集、操作集以及授权条件。阿里云访问...

技术支持的范围和方式

阿里云E-MapReduce（简称EMR）是云原生开源大数据平台，能够为用户提供简单易集成的开源大数据解决方案。EMR on ECS集群主要构建于ECS之上，集群资源归属于用户，EMR提供基于该资源的半托管云服务能力，用户对集群拥有完全的管理操作权限，...

使用OpenAPI

本文为您介绍使用开源大数据平台E-MapReduce OpenAPI的基本信息。关于使用阿里云OpenAPI的详细介绍，请参见使用OpenAPI。基本信息版本说明 E-MapReduce 版本号说明 2021-03-20 推荐使用。EMR Workbench 版本号说明 2024-04-30 推荐使用...

什么是EMR on ACK

您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注大数据任务本身。前置概念阅读本文前，您可能需要了解如下概念：什么...

授权信息

本文为您介绍开源大数据平台 E-MapReduce 为 RAM 权限策略定义的操作（Action）、资源（Resource）和条件（Condition）。开源大数据平台 E-MapReduce 的 RAM 代码（RamCode）为 starrocks,sr，支持的授权粒度为操作级。权限策略通用结构 ...

StarRocks存算分离版正式发布

EMR Serverless StarRocks 存算分离版正式发布适用客户全网用户新增功能/规格存算分离版本采用StarRocks...适用于对存储成本敏感，同时对查询效率要求略低的业务场景，例如OLAP多维分析、数据仓库场景。产品文档快速使用存算分离版实例

示例项目使用说明

集群运行 开源项目运行示例如下：Spark SparkWordCount：spark-submit-class SparkWordCount examples-1.0-SNAPSHOT-shaded.jar inputPath outputPath numPartition 参数说明如下：参数描述 inputPath 输入数据路径。outputPath 输出路径...

技术支持的范围和方式

关于阿里云EMR Serverless Spark产品和服务的相关问题，您可以通过以下渠道寻求支持和解决。...填写相关问题信息，产品分类选择开源大数据平台 E-MapReduce。单击提交。售后服务SLA 售后服务SLA详情，请参见企业支持计划的内容。

OSS/OSS-HDFS

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括 JindoFS 存储系统（原JindoFS Block模式）...

基本概念

本文介绍开源大数据平台E-MapReduce使用过程中遇到的常用名词的基本概念和简要描述。集群 E-MapReduce产品中的一个独立的机器组合，为上层业务提供一些基础的引擎服务。一个E-MapReduce集群是由一个或多个阿里云ECS实例组成的。ECS实例在E...

Doris

Apache Doris是一个高性能、实时的分析型数据库，能够较好的满足报表分析、即席查询、数据湖联邦查询加速等使用场景。本文为您介绍Apache Doris。背景信息关于更多Apache Doris信息，详情请参见 Doris介绍。使用场景数据源经过各种数据...

授权信息

本文为您介绍开源大数据平台 E-MapReduce 为 RAM 权限策略定义的操作（Action）、资源（Resource）和条件（Condition）。开源大数据平台 E-MapReduce 的 RAM 代码（RamCode）为 emr-serverless-spark，支持的授权粒度为操作级。权限策略...

EMR on ACK商业化公告

您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注大数据任务本身。收费标准阿里云EMR on ACK正式商业化后，将根据集群...

授权信息

本文为您介绍开源大数据平台 E-MapReduce 为 RAM 权限策略定义的操作（Action）、资源（Resource）和条件（Condition）。开源大数据平台 E-MapReduce 的 RAM 代码（RamCode）为 emr，支持的授权粒度为资源级。权限策略通用结构权限策略...

什么是EMR Serverless Spark

其设计理念是打造一个统一平台，融合多种应用场景，让用户无需切换工具即可高效完成从数据分析到模型训练的全流程工作。平台能力层该系统主要为上层场景提供支撑，通过工作流编排实现批处理、流计算以及人工智能作业的多场景混合调度。...

JindoData（仅对存量用户开放）

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括JindoFS存储系统（原JindoFS Block模式）、...

开源大数据平台E-MapReduce系统权限策略参考

本文描述开源大数据平台 E-MapReduce支持的所有系统权限策略及其对应的权限描述，供您授权RAM身份时参考。什么是系统权限策略权限策略是用语法结构描述的一组权限的集合，可以精确地描述被授权的资源集、操作集以及授权条件。阿里云访问...

E-MapReduce支持倚天云服务器

阿里云E-MapReduce（简称EMR）支持使用倚天云服务器构建开源大数据集群。与现有X86架构实例体验完全相同的情况下，具有更高的性价比，帮助您降低成本并提高效率。本文为您介绍倚天云服务器的特性、优势，以及在E-Mapreduce上倚天云服务器的...

Serverless Spark 免费公测

使用EMR Serverless Spark，企业可以更专注于数据分析和价值提炼，提高工作效率。EMR Serverless Spark免费公测于2024年04月25日开启，预计于2024年06月25日结束。公测阶段面向所有用户开放，您可以免费试用。免费试用结束后，产品将正常...

产品优势

本文从核心功能、性能、成本等方面，将云原生多模数据库 Lindorm 与开源HBase、开源Cassandra、OpenTSDB、开源ElasticSearch、开源Solr和开源HDFS进行了对比，帮助您进一步了解Lindorm与其他数据库产品的区别以及Lindorm在各方面的优势。...

加入资源组

取值如下：cluster：集群 flowproject：项目返回数据名称类型示例值描述 RequestId String 473469C7-AA6F-4DC5-B3DB-A3DC0DE3C83E 请求ID。成功返回请求ID，失败返回相应错误码。示例请求示例 http(s):/[Endpoint]/?Action=...

应用场景

该方案优势如下：全托管免运维弹性扩展能力开放数据湖架构一站式的数据开发平台数据查询与分析场景在传统数据平台下，数据仓库工程师和数据分析师通常面临两个不同的环境，甚至使用不同的引擎和语法，导致数据指标和算子行为存在差异...

什么是云原生多模数据库Lindorm

计算引擎计算引擎与Lindorm存储引擎深度融合，基于云原生架构提供的分布式计算服务，资源归属于用户，满足用户在数据生产、交互式分析、机器学习和图计算等场景的计算需求，兼容开源Spark标准接口。向量引擎云原生多模数据库 Lindorm ...