开源软件开发-开源软件开发文档介绍内容-移动阿里云

SQL Editor

您可以直接在控制台上编写、运行和管理SQL查询语句，无需下载或安装任何本地客户端软件，极大地方便了数据分析师和开发人员对数据进行实时查询与分析。前提条件已创建StarRocks实例，详情请参见创建实例。进入SQL Editor 进入EMR ...

概述

Flink（VVR）是基于Apache Flink（以下简称Flink）开发的商业版，VVR引擎接口完全兼容Flink开源版本，且提供GeminiStateBackend等高增值功能，以提升作业性能及稳定性。背景信息 Flink核心是一个流式的数据流执行引擎，其针对数据流的分布...

Shell

与开源Zeppelin相比，E-MapReduce（简称EMR）数据开发集群中的Shell解释器支持在不同EMR集群环境里切换。本文通过示例为您介绍如何在Zeppelin中使用Shell。使用示例运行hadoop命令执行如下命令会显示当前EMR集群根目录下的所有文件，切换...

版本特性

版本类型开源核心版本 MSE优化版本描述专业版/开发版 2.2.3 2.2.3.1 默认关闭开源控制台。详细信息，请参见开启Nacos开源控制台。支持RAM-AK白名单功能。支持Eureka增量数据协议。优化引擎升级/重启时的校验逻辑，支持引擎无损变更，...

什么是EMR Notebook

兼容开源 EMR Notebook兼容开源Jupyter Notebook，您可以通过文件导入、导出的方式实现开发工具的自由切换，从而降低了使用门槛。产品功能交互式编程环境支持逐步执行SQL和Python代码，并根据运行结果调整后续代码。多种数据源类型支持...

IDaaS“开发友好”设计

功能三：SDK 与样例代码针对不同场景，IDaaS 提供管理说明文档、开发说明文档和 SDK 及样本代码，汇总如下：场景管理说明文档开发说明文档样本代码应用接入 SSO 自研应用 SSO 配置自研应用接入 SSO 自研应用接入 SSO Github 开源-自...

迁移助手与迁云服务

DataWorks迁移助手支持将开源调度引擎的作业迁移至DataWorks，支持作业跨云、跨Region、跨账号迁移，实现DataWorks作业快速克隆部署，同时DataWorks团队联合大数据专家服务团队，上线迁云服务，帮助您快速实现数据与任务的上云。...

AI开源项目

阿里云开源的AI及大数据相关开源项目，如用于全自动分布式深度学习系统TePDist、NLP 开发和应用工具包EasyNLP等，您可以根据需要选择AI及大数据开源项目。PAI相关的开源项目信息请前往阿里云大数据&AI开源项目。

大语言模型

阿里云百炼平台上提供的1.8B模型、7B模型、14B模型和72B模型基于千问开源版本，进行了针对性的推理性能优化，为广大开发者提供便捷的API服务。各个版本均对应魔搭社区开源的各个尺寸的模型版本，详细参考链接。Qwen 通义千问为阿里云研发...

开源支持

本文将为您介绍MaxCompute相关的开源功能。SDK MaxCompute提供Java SDK和Python SDK接口实现创建、查看、删除MaxCompute表等操作。通过SDK，您可以通过编辑代码灵活地操作MaxCompute。MaxCompute提供的SDK如下：Java SDK Java SDK使用说明...

百川开源大语言模型

百川开源大语言模型来自百川智能，百炼上提供了百川1(7B)以及百川2(7B和13B)的服务化API。开发者可以通过以下链接，了解如何通过大模型服务平台调用百川开源大语言模型。快速开始 API详情

产品优势

阿里云E-MapReduce（简称EMR）为您提供相对方便可控的企业级开源大数据服务。您可以快速搭建开源大数据服务，例如Hadoop、Spark、Flink、Kafka和HBase服务。稳定可靠的开源组件 100%采用社区开源组件，随开源版本升级迭代，详情请参见版本...

开发参考

本文介绍了E-MapReduce的SDK和API相关的内容，供您进行对应的开发操作。EMR on ECS API概览 SDK概述

EMR数据开发停止更新公告

2022年2月21日21点起，E-MapReduce（简称EMR）数据开发功能停止更新，进入维护状态，会影响创建项目、新建和运行作业、工作流、数据开发运维等功能。如果您还在使用数据开发功能，请尽快迁移到DataWorks构建数据开发平台。本文为您介绍数据...

通义千问开源系列大语言模型

通义千问系列模型由阿里云研发。其中开源版本提供包括18亿、70亿、140亿和720亿等多个规模的版本。这些模型基于Transformer结构，在超大规模的...开发者可以通过以下链接，了解如何通过大模型服务平台调用通义千问开源系列。快速开始 API详情

概述

EMR数据开发于2022年2月21日停止功能更新，2023年9月30日停止全面支持。如果您在2022年2月21日21点前未使用过数据开发功能，推荐您通过EMR Workflow进行数据开发，详情请参见什么是EMR Workflow。如果您在2022年2月21日21点前使用过数据...

概述

使用限制当前各个版本的DataWorks均支持Oozie、Azkaban、Airflow等开源调度引擎作业搬站上云，但是不同版本的DataWorks的迁移助手在进行DataWorks迁移时，有不同支持策略，如下表所示。DataWorks迁移功能描述基础版标准版专业版企业版...

服务支持

本文档汇总了E-MapReduce的产品...产品公告 EMR Workflow公测说明 EMR旧版数据开发迁移公告发布记录新功能发布记录常见问题 EMR on ECS常见问题服务等级协议 E-MapReduce服务等级协议（SLA）E-MapReduce Serverless服务等级协议（SLA）

开发准备

本文介绍E-MapReduce开发的准备工作。准备工作如下：请确认您已经开通了阿里云服务，并创建了AccessKey ID和AccessKey Secret。请确认您已开通OSS。您已经对Spark、Hadoop、Hive和Pig具备一定的认识。文中不对Spark、Hadoop、Hive和Pig开发...

授权信息

本文为您介绍开源大数据平台 E-MapReduce（EMR）为RAM权限策略定义的操作（Action）、资源（Resource）和条件（Condition）。开源大数据平台 E-MapReduce（EMR）的RAM代码（RamCode）为 emr,emr-apm-server,ecm,emr-serverless-spark,dls...

合作伙伴及开源生态

除了开源项目本身的活跃，SOFAStack 也坚持“开放”的运作思路，吸引外部众多开发者参与社区活动，形成了围绕其技术的线上线下开发者社区。全球线上线下社区活跃截至目前，SOFAStack 累计组织或参与多场技术布道，涉及北京、上海、广州、...

使用OpenAPI

本文为您介绍使用开源大数据平台E-MapReduce OpenAPI的基本信息。关于使用阿里云OpenAPI的详细介绍，请参见使用OpenAPI。基本信息版本说明版本号说明 2021-03-20 推荐使用。接入点说明根据实例所在的地域，选择对应的服务接入点地址，...

什么是图计算服务

图计算服务Graph Compute是阿里云自主研发的高性能分布式图计算产品，为开发者提供万亿级数据规模的一站式图技术服务。Graph Compute支持复杂图关系数据的存储、查询和计算，高效对接图算法与模型，在搜索推荐广告、实时风控、知识图谱、...

Zeppelin常见问题

EMR Studio上的Zeppelin与开源版本一致吗？如何设置Zeppelin Note的权限？Zeppelin执行时无法正常启动Interpreter EMR Studio上的Zeppelin与开源版本一致吗？EMR Studio上的Zeppelin是增强版的Zeppelin，与开源版本不一致。E-MapReduce的...

支持倚天云服务器

阿里云E-MapReduce支持使用倚天云服务器构建开源大数据集群。适用客户全网用户新增功能/规格阿里云E-MapReduce（简称EMR）支持使用倚天云服务器构建开源大数据集群。与现有X86架构实例体验完全相同的情况下，具有更高的性价比，帮助用户...

访问链接与端口

通过访问链接与端口功能，您可以方便地通过控制台方式访问集群中已安装开源组件Web UI的地址。本文将介绍如何设置安全组规则和访问链接，以便查看集群中开源组件的UI界面。前提条件已创建E-MapReduce集群，详情请参见创建集群。背景信息 ...

Hive概述

Hive是一个基于Hadoop的数据仓库框架，在大数据业务场景中，主要用来...Hive语法 EMR产品最大程度的保持了开源社区的语法以及体验，在Hive语法上保持与开源社区Hive语法100%的兼容性。关于Apache Hive的更多介绍，请参见 Apache Hive官网。

导出开源引擎任务

下载模板及目录结构的介绍请进入开源引擎导出页面进行查询：登录 DataWorks控制台，单击左侧导航栏的数据建模与开发>数据开发，在下拉框中选择对应工作空间后单击进入数据开发。单击左上方的图标，选择全部产品>更多>迁移助手。在...

Superset（仅对存量用户开放）

您需要在SSH连接中创建隧道以查看开源组件的Web页面，详情请参见通过SSH隧道方式访问开源组件Web UI。默认用户名和密码均为admin，请您登录后及时修改密码。说明首次登录后默认是英文界面。在Superset页面，单击右上角的图标，选择 ...

开源RabbitMQ迁移上云

在使用开源RabbitMQ集群时，当您希望能够解决各种稳定性痛点（例如消息堆积、脑裂等问题）、实现高并发、分布式、灵活扩缩容时，您可以将开源RabbitMQ集群迁移至云消息队列 RabbitMQ 版，本文介绍迁移上云的前提条件、操作步骤、注意事项...

导入开源引擎任务

登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的数据建模与开发>数据开发，在下拉框中选择对应工作空间后单击进入数据开发。单击左上方的图标，选择全部产品>更多>迁移助手。在左侧导航栏，单击任务上云>调度引擎作业导入...

TPCH和TPCDS

Zeppelin自带了TPCH和TPCDS的教程Note，您无需任何配置就可以在E-MapReduce（简称EMR）数据开发集群进行TPCH和TPCDS的性能测试。背景信息 EMR数据开发集群中的TPCH支持Hive、Spark、Flink和Presto四个引擎，TPCH详细信息，请参见 TPC-H。...

EMR Workbench

阿里云EMR Workbench是一个综合性的大数据分析和开发环境，作为阿里云E-MapReduce的一部分，它提供了EMR Notebook和EMR Workflow两个核心功能。通过EMR Workbench，您可以轻松进行数据开发，以及交互式数据分析，并设计复杂的数据处理工作...

查看账单

在明细账单页签中，设置查询账期，并在列表中筛选产品为开源大数据平台E-MapReduce，产品明细为 EMR StarRocks Serverless按量或 EMR StarRocks Serverless包年包月。您还可以通过统计项和统计周期选择账单的展示内容。账单详细...

EMR旧版数据开发迁移公告

EMR Workflow是一个全托管的工作流和任务调度服务，100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务，您可以通过可视化的操作界面轻松地管理工作流和任务，高效构建数据仓库，并为生产任务的稳定运行提供保障。EMR ...

ClickHouse概述

开源大数据平台E-MapReduce（简称EMR）的ClickHouse提供了开源OLAP分析引擎ClickHouse的云上托管服务。EMR ClickHouse完全兼容开源版本的产品特性，同时提供集群快速部署、集群管理、扩容、缩容和监控告警等云上产品功能，并且在开源的基础...

概述

Alluxio是一个面向基于云的数据分析和人工智能的开源的数据编排技术。Alluxio为数据驱动型应用和存储系统构建了桥梁，将数据从存储层移动到距离数据驱动型应用更近的位置，从而能够更容易被访问，同时使得应用程序能够通过一个公共接口连接...

Flink DataStream参考

DataFlow集群的Flink DataStream API完全兼容开源的Flink版本，关于Flink DataStream API的详细信息，请参见 Flink DataStream API Programming Guide。上下游存储（Connector）开源Flink的上下游存储，请参见 DataStream Connectors。...

简介

背景信息 Spark Streaming SQL是基于Spark Structured Streaming开发完成的，所有语法功能和使用限制遵循Spark Structured Streaming的标准，因此可以使用SQL语句来开发流式分析作业。注意事项 EMR集群是否支持Spark Streaming SQL功能与...