开源项目代码-开源项目代码文档介绍内容-移动阿里云

AI开源项目

阿里云的AI及大数据开源项目包括用于全自动分布式深度学习系统的TePDist和NLP开发与应用工具包EasyNLP，您可以根据需要选择合适的项目。PAI相关的开源项目信息请前往阿里云大数据&AI开源项目。

Gateway管理

通过Livy，您可以利用Airflow中的livy_operator以及spark_magic等开源项目，向Serverless Spark提交任务、查询任务状态并获取计算结果。Kyuubi提供了JDBC/ODBC接口，支持通过SQL查询或BI工具（如Tableau、Power BI）直接连接Serverless ...

通过 Gateway 向全托管 spark 提交任务

通过Livy，您可以利用Airflow中的livy_operator以及spark_magic等开源项目，向Serverless Spark提交任务、查询任务状态并获取计算结果。Kyuubi提供了JDBC/ODBC接口，支持通过SQL查询或BI工具（如Tableau、Power BI）直接连接Serverless ...

开源代码参考

开源代码库阿里云 IDaaS 将一系列集成样例代码开源，供企业应用的开发者对接使用。如下为开源代码库。每个库中，都有完整的配置使用、开发说明，请参考：库名说明链接 java-spring-oidc-sample 应用参照 OIDC 协议（授权码模式）实现 ...

Iceberg

类别项目子项目开源Iceberg Iceberg商业版（阿里云）基础功能 ACID 无√历史版本回溯无√Source和Sink集成 Batch√Streaming√高效数据过滤无√数据变更 Schema Evolution 无√Partition Evolution 无√CopyOnWrite更新无√...

示例项目

如果您想直接导入IDE就可以运行的项目...注意您需要将项目里面的AccessKey信息和安全组信息，修改为您自己账户的AccessKey信息和安全组信息，具体说明请参见项目代码前的注释。JDK版本信息：JDK 1.7 或以上。普通project：emr-samples.zip。

合作伙伴及开源生态

（数据统计截止时间为 2021 月 7 月 22 日）SOFAStack 目前涵盖的开源项目有：主要项目：基于 Spring Boot 的研发框架 SOFABoot、生产级 Java RPC 框架 SOFARPC、分布式链路跟踪系统 SOFATracer、高可用服务注册中心 SOFARegistry。...

快速部署开源应用

功能简介通过本功能，您可以：快速发现并部署热门开源项目。使用EDAS内置的可观测能力，实现开箱即用的监控与管理。管理已部署应用的生命周期，包括启动、停止、更新和删除。其他功能说明如下表所示。功能说明查看部署的HelmChart 在 ...

开源生态

开源项目 2018 年 4 月，蚂蚁集团宣布开源 SOFAStack 金融级分布式架构。得益于社区的信任和支持，目前已经累积超过 3.4 万的 Star 数和超过 100 家企业用户，并持续向打造金融级云原生多个技术领域的标杆努力（数据统计截止时间为 2020 月...

开源支持

Mars已经在Github上开源代码，您可以一起参与共建Mars。详情请参见GitHub开源代码 Mars。关于Mars的更多说明信息请参见 Mars开发指南。服务支持方式：在Github Mars 中留言或新建Issue。Data collector MaxCompute数据集成工具插件，包括...

示例项目使用说明

集群运行 开源项目运行示例如下：Spark SparkWordCount：spark-submit-class SparkWordCount examples-1.0-SNAPSHOT-shaded.jar inputPath outputPath numPartition 参数说明如下：参数描述 inputPath 输入数据路径。outputPath 输出路径...

通过DolphinScheduler提交Spark任务

在此之前，您可以选择自行编译主分支代码，或通过cherry-pick相关的PR将该插件集成到您的项目中。前提条件已安装JDK，且JDK的版本为1.8及以上版本。已安装Apache DolphinScheduler的AliyunServerlessSpark Task Plugin。方式一：自行编译...

Flink（VVR）作业配置

EMR-3.27.x及之前版本使用Flink社区开源版本，EMR-3.27.x之后版本使用完全兼容开源Flink的企业版（VVR）。本文介绍如何配置Flink（VVR）类型的作业。背景信息 Flink企业版由Apache Flink创始团队官方出品，拥有全球统一商业化品牌。VVR提供...

功能特性

EMR on ECS 功能集功能功能描述参考文档集群管理创建集群您可以轻松构建和运行Hadoop、Spark、Hive、Presto等开源大数据框架，以进行大规模数据处理和分析等操作。创建集群释放集群在完成EMR集群任务后及时释放集群，可以释放资源...

什么是EMR Serverless Spark

生态无缝兼容全面兼容开源Spark：无需修改代码即可直接运行，提供用法兼容的 spark-submit 和 spark-sql 工具，降低迁移门槛。深度集成主流湖仓格式：全面支持Apache Paimon、Iceberg、Delta、Hudi等主流湖仓格式，满足多样化数据存储需求...

EMR Studio（已不支持新购）

EMR Studio是E-MapReduce提供的开源大数据开发套件，包含Apache Zeppelin、Jupyter Notebook和Apache Airflow等开源组件。能够无缝关联EMR集群（EMR on ECS和EMR on ACK）的计算引擎提交任务，并提供了交互式开发、任务调度和任务监控等...

授权信息

开源大数据平台 E-MapReduce 的 RAM 代码（RamCode）为 starrocks,sr，支持的授权粒度为操作级。权限策略通用结构权限策略支持 JSON 格式，其通用结构如下：{"Version":"1","Statement":[{"Effect":"Effect","Action":"Action","Resource...

授权信息

开源大数据平台 E-MapReduce 的 RAM 代码（RamCode）为 emr-serverless-spark，支持的授权粒度为操作级。权限策略通用结构权限策略支持 JSON 格式，其通用结构如下：{"Version":"1","Statement":[{"Effect":"Effect","Action":"Action",...

授权信息

开源大数据平台 E-MapReduce 的 RAM 代码（RamCode）为 emr，支持的授权粒度为资源级。权限策略通用结构权限策略支持 JSON 格式，其通用结构如下：{"Version":"1","Statement":[{"Effect":"Effect","Action":"Action","Resource":...

Fusion引擎

Fusion引擎与开源Spark完全兼容，您无需对现有代码做任何修改。在EMR Serverless Spark中，只需在创建会话时开启使用Fusion加速开关，即可启用该引擎。注意事项 Fusion引擎使用堆外内存，您需要在创建会话时，在 Spark配置中添加配置项 ...

开源大数据平台 E-MapReduce

开源大数据平台E-MapReduce（Elastic MapReduce）是运行在阿里云平台上的一种大数据处理的系统解决方案。

初始化

背景信息 OpenAPI开发者门户提供在线调试API和动态生成SDK示例代码的功能，能显著降低API的使用难度，推荐您使用。环境准备在Eclipse项目中使用阿里云E-MapReduce OpenAPI Java SDK。请确保代码运行环境设置了环境变量ALIBABA_CLOUD_...

概述

Spark on MaxCompute是MaxCompute提供的兼容开源Spark的计算服务。它在统一的计算资源和数据集权限体系之上，提供Spark计算框架，支持您以熟悉的开发使用方式提交运行Spark作业，满足更丰富的数据处理分析需求。使用限制 Spark on ...

什么是EMR on ECS

EMR on ECS是指在ECS上运行EMR，它将EMR的大数据处理能力与ECS的弹性灵活优势相结合，使得您能够更加便捷地配置和管理EMR集群，同时支持多种开源和自研大数据组件，适用于复杂的大数据处理和分析场景。产品架构 EMR主要由四部分组成，分别...

查看开源组件 Web 界面

在EMR集群中，为了确保集群安全，Hadoop、Spark和Flink等开源组件的Web界面端口均未对外开放。如果您想直接访问开源组件的Web界面，可根据实际场景选择原生UI地址、Knox代理地址、SSH本地端口转发或 SSH动态端口转发方式进行访问。快速...

OpenLDAP

OpenLDAP是LDAP协议（Lightweight Directory Access Protocol）的开源实现，在EMR集群中主要提供用户管理和身份认证的功能。服务集成OpenLDAP 在EMR集群中，Knox服务默认与OpenLDAP服务对接。当您通过EMR控制台的访问链接与端口功能访问...

Flink版本调整公告

为了更好地融入开源生态，提供更加开放和多样化的计算服务，阿里云E-MapReduce（简称EMR）从EMR-5.17.0和EMR-3.51.0版本开始，将Flink引擎版本从Flink企业版Ververica Runtime（简称VVR）调整为Flink社区开源版本，同时引入RocksDB作为存储...

产品简介

开源大数据开发平台E-MapReduce（简称EMR）是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

创建项目

在项目中您可以进行任务的编辑和工作流的调度。文为您介绍如何在EMR Workflow上创建项目。前提条件已创建工作空间，详情请使用管理工作空间。操作步骤进入项目管理页面。使用阿里云账号（主账号）或RAM用户登录 E-MapReduce控制台。在...

EMR与自建Hadoop集群对比优势

与自建Hadoop集群相比，开源大数据开发平台EMR提供弹性资源管理和自动化运维，降低运维复杂度，通过用户管理、数据加密和权限管理等为数据安全保驾护航，同时EMR集成了丰富的开源组件并打通开源生态与阿里云生态，便于快速搭建大数据处理和...

Livy

Livy支持提交Spark作业或者Spark代码片段，同步或者异步的进行结果检索以及Spark Context上下文管理，Livy简化了Spark和应用程序服务器之间的交互，从而使Spark能够用于交互式Web或移动应用程序。背景信息 Livy还支持如下功能：长时间运行...

Zeppelin常见问题

EMR Studio上的Zeppelin与开源版本一致吗？如何设置Zeppelin Note的权限？Zeppelin执行时无法正常启动Interpreter EMR Studio上的Zeppelin与开源版本一致吗？EMR Studio上的Zeppelin是增强版的Zeppelin，与开源版本不一致。E-MapReduce的...

支持倚天云服务器

阿里云E-MapReduce支持使用倚天云服务器构建开源大数据集群。适用客户全网用户新增功能/规格阿里云E-MapReduce（简称EMR）支持使用倚天云服务器构建开源大数据集群。与现有X86架构实例体验完全相同的情况下，具有更高的性价比，帮助用户...

Shell

与开源Zeppelin相比，E-MapReduce（简称EMR）数据开发集群中的Shell解释器支持在不同EMR集群环境里切换。本文通过示例为您介绍如何在Zeppelin中使用Shell。使用示例运行hadoop命令执行如下命令会显示当前EMR集群根目录下的所有文件，切换...

E-MapReduce Doctor

E-MapReduce Doctor（简称EMR Doctor）是E-MapReduce产品自研的面向开源大数据集群的智能运维诊断系统。通过EMR Doctor（即监控诊断页面的“健康诊断”和“集群日报”功能）可以全局了解集群的健康状况和动态走势，为运维决策和资源优化...

SQL与函数参考

EMR Serverless StarRocks兼容开源StarRocks的SQL语法和函数，您可以参考以下文档进行开发设计。StarRocks版本参考文档 3.3系列 SQL参考函数参考 3.2系列 SQL参考函数参考 2.5系列 SQL参考函数参考

ClickHouse

开源大数据平台E-MapReduce（简称EMR）的ClickHouse提供了开源OLAP分析引擎ClickHouse的云上托管服务。EMR ClickHouse完全兼容开源版本的产品特性，同时提供集群快速部署、集群管理、扩容、缩容和监控告警等云上产品功能，并且在开源的基础...

查看账单

在账单详情页签中，设置账单月份，并在列表中筛选产品为开源大数据平台 E-MapReduce，然后基于您的实际需求选择产品明细。您还可以通过统计项和统计周期选择账单的展示内容。账单详细内容，可参见费用与成本的账单管理。相关文档 ...

使用OpenAPI

本文为您介绍使用开源大数据平台E-MapReduce OpenAPI的基本信息。关于使用阿里云OpenAPI的详细介绍，请参见使用OpenAPI。基本信息版本说明 E-MapReduce 版本号说明 2021-03-20 推荐使用。EMR Workbench 版本号说明 2024-04-30 推荐使用...

Paimon

目前阿里云开源大数据平台E-MapReduce常见的计算引擎（例如Flink、Spark、Hive或Trino）都与Paimon有着较为完善的集成度。您可以借助Apache Paimon快速地在HDFS或者云端OSS上构建自己的数据湖存储服务，并接入上述计算引擎实现数据湖的分析...