思维导图开源软件-思维导图开源软件文档介绍内容-移动阿里云

思维导图

这次我们推出了「思维导图」来助力你管理工作和灵感。云效知识库灵活的「思维导图」可以让你整理信息与书写文档一气呵成。绘制思维导图 在段首点击「+」按钮或者手工输入「+」，选择「思维导图」即可生成在文档中。通过点击工具条或者快捷...

OpenLDAP

Hive：使用LDAP认证 Spark：管理LDAP认证 Impala：管理LDAP认证 Trino：管理LDAP认证 Presto：管理LDAP认证 Kafka：使用LDAP用户鉴权如果某个服务没有提供一键开启LDAP认证的功能，则需要参考开源软件的社区文档来配置开启LDAP认证。...

开源软件迁移

当前大部分应用系统都基于开源软件构建，并且大部分的开源软件在倚天ARM平台上已经提供较好的应用生态，您可以直接使用操作系统提供的开源生态软件来安装部署。本文介绍Nginx、MySQL、Redis、TensorFlow、PyTorch等开源软件如何在倚天...

管理LDAP认证

EMR-5.11.0及之前版本，EMR-3.45.0及之前版本重要如果您的EMR版本较低，没有相应的LDAP认证配置按钮，则需要参考开源软件的社区文档进行手动配置，以启用LDAP认证功能。在组件列表区域，选择 SparkThriftServer 操作列的 enableLDAP。...

E-MapReduce支持倚天云服务器

丰富的生态：倚天云服务器支持主流开源软件以及多款阿里云主流PaaS产品。最新网络架构：基于2*50 GB网络架构提供大带宽以及超强转发能力，对比上一代CIPU架构，网络带宽提升1倍。安全增强：支持vTPM特性，依托TPM/TCM芯片，实现从服务器到...

管理LDAP认证

EMR-5.11.0及之前版本，EMR-3.45.0及之前版本重要如果您的EMR版本较低，没有相应的LDAP认证配置按钮，则需要参考开源软件的社区文档进行手动配置，以启用LDAP认证功能。在组件列表区域，选择 TrinoMaster 操作列的 enableLDAP。在弹出...

Spark对接Kafka

背景信息 E-MapReduce上的Hadoop集群和Kafka集群都是基于纯开源软件，相关编程使用方法可参见官方相应文档。Spark官方文档：streaming-kafka-integration 和 structured-streaming-kafka-integration。E-MapReduce-demo：github地址。访问...

Trino

Trino（即原PrestoSQL）是一个开源的分布式SQL查询引擎，适用于交互式分析查询。EMR-3.44.0和EMR-5.10.0版本开始改用社区正式名称Trino，之前各版本控制台显示为Presto，内核其实是Trino，使用时请注意区分。基本特性 Trino使用Java语言...

Presto

系统组成 Presto的系统组成如下图所示。Presto是典型的M/S架构的系统，由一个Coordinator节点和多个Worker节点组成。Coordinator负责如下工作：接收用户查询请求，解析并生成执行计划，下发Worker节点执行。监控Worker节点运行状态，各个...

Alibaba Cloud Linux 3软件兼容性列表

软件类型软件名称软件版本软件厂商中间件宝兰德应用服务器软件 V9.5 北京宝兰德软件股份有限公司中间件东方通应用服务器软件 V7.0 北京东方通科技股份有限公司中间件金蝶天燕Apusic应用服务器软件 V9.0 深圳市金蝶天燕云计算股份...

版本生命周期策略

本文为您介绍EMR Serverless StarRocks的产品软件栈版本号及含义、版本对应关系和产品生命周期策略。背景信息随着StarRocks开源社区的持续发展，StarRocks通过发布新版本为您提供更多优势特性，例如更快的性能、更好的安全性以及更多的...

Kerberos

在这种高安全级别的集群中，所有开源组件均采用Kerberos安全模式启动，确保只有经过Kerberos认证的客户端能够访问集群提供的服务（例如HDFS）。背景信息集群开启Kerberos之后：客户端：可以对可信任的客户端提供认证，使得可信任客户端...

功能特性

EMR on ECS 功能集功能功能描述参考文档集群管理创建集群您可以轻松构建和运行Hadoop、Spark、Hive、Presto等开源大数据框架，以进行大规模数据处理和分析等操作。创建集群释放集群在完成EMR集群任务后及时释放集群，可以释放资源...

创建EMR Studio集群

高级设置软件自定义配置：可指定JSON文件对集群中的基础软件（例如Hadoop、Spark和Hive等）进行配置，详细使用方法请参见软件配置。默认不开启。硬件配置。区域配置项描述付费类型付费类型默认包年包月。当前支持的付费类型如下：...

生命周期策略

本文为您介绍开源大数据开发平台E-MapReduce（简称EMR)的产品生命周期策略及产品终止策略（包含产品粒度与发行版本粒度），以便您知晓详细规则，提早做好相应准备。背景信息产品的更新换代是基础技术软件领域的常态。在开源大数据社区蓬勃...

扩容集群

EMR Serverless StarRocks不仅无缝兼容开源StarRocks，并且具备自动升级软件版本的功能，可省去手动管理版本的繁琐与风险。迁移方案详情，请参见迁移StarRocks数据至EMR Serverless StarRocks。操作步骤重要集群扩容操作不会重启存量...

EMR与自建Hadoop集群对比优势

与自建Hadoop集群相比，开源大数据开发平台EMR提供弹性资源管理和自动化运维，降低运维复杂度，通过用户管理、数据加密和权限管理等为数据安全保驾护航，同时EMR集成了丰富的开源组件并打通开源生态与阿里云生态，便于快速搭建大数据处理和...

EMR Studio（已不支持新购）

EMR Studio是E-MapReduce提供的开源大数据开发套件，包含Apache Zeppelin、Jupyter Notebook和Apache Airflow等开源组件。能够无缝关联EMR集群（EMR on ECS和EMR on ACK）的计算引擎提交任务，并提供了交互式开发、任务调度和任务监控等...

Kafka Manager

说明当选择了Kafka服务，系统将默认安装Kafka Manager软件服务，并开启Kafka Manager的认证功能。注意事项使用Kafka Manager进行partition reassign功能时，当前版本的Kafka Manager是没有提供限流功能的。如果需要限流，您可以通过 ...

产品形态选型

StarRocks 软件栈自身服务的稳定性及服务保障。自定义环境与长期运行的离线作业需要完全掌控集群资源和配置。EMR on ECS 提供全面的集群和组件服务管控能力，包括但不限于ECS故障补偿、弹性伸缩、智能诊断等。集成 Hadoop、Spark、Flink、...

组件操作

EMR提供的组件包括开源和自研两大类，涵盖数据开发、计算引擎、数据服务、资源管理、数据存储、数据集成等领域，您可以按需选择和配置。说明在创建集群时，如果没有您想使用的组件，或者想使用的开源组件仅对存量用户开放，您可以自行安装...

Shell

与开源Zeppelin相比，E-MapReduce（简称EMR）数据开发集群中的Shell解释器支持在不同EMR集群环境里切换。本文通过示例为您介绍如何在Zeppelin中使用Shell。使用示例运行hadoop命令执行如下命令会显示当前EMR集群根目录下的所有文件，切换...

Superset（仅对存量用户开放）

如下图所示。常见问题问题现象：EMR-4.6和EMR-3.33之前版本的集群，使用admin用户第一次登录Superset的Web UI时，报错invalid login。解决方法：使用SSH方式登录到集群主节点，详情请参见登录集群。重要请使用root用户进行以下操作。...

StarRocks

说明本文部分内容来源于开源StarRocks的什么是StarRocks。StarRocks特性 StarRocks的架构设计融合了MPP数据库，以及分布式系统的设计思想，其特性如下所示。架构精简 StarRocks内部通过MPP计算框架完成SQL的具体执行工作。MPP框架能够...

基础使用

写数据环境配置 EMR-3.32.0以及后续版本中，已经将Hudi相关依赖集成到各个开源组件中，包括Spark、Hive和Presto，因此运行时不需要引入额外的Hudi依赖，只需要在pom文件中添加Hudi依赖即可。不同的EMR版本使用的Hudi版本不同，详细信息请...

Knox

常见问题 Q：Knox组件异常停止，启动Knox的时候报错 Failed to start gateway:org.apache.hadoop.gateway.services.ServiceLifecycleException:Gateway SSL Certificate is Expired，具体信息如下图所示。A：您可以按照以下步骤处理。使用...

快速使用EMR on ACK

关于Spark的更多介绍，可以参见开源文档 Quick Start，选择适合您的语言和版本。提交作业的详细信息请参见：提交Spark作业使用CLI提交Presto作业提交Flink作业通过kubectl连接Kubernetes集群，详情请参见获取集群KubeConfig并通过...

DeltaLake

图 1.数据仓库与数据湖 Data Warehouse、Data Lake和Delta Lake对比如下所示。对比项 Data Warehouse Data Lake Delta Lake 架构计算存储一体或分离计算存储分离计算存储分离存储管理严格、非通用原生格式通用格式、轻量级场景 ...

Impala

当某一个Impalad进程由于节点异常、网络异常或软件问题等导致节点不可用时，StateStore确保将状况结果通知其他Impalad进程，当有新的查询请求时，Impalad进程将不会发送查询请求到该不可用的节点。Catalogd 部署在Master节点的master-1-1...

JindoFS块存储模式

应用场景 E-MapReduce目前提供了三种大数据存储系统，E-MapReduce OssFileSystem、E-MapReduce HDFS和E-MapReduce JindoFS，其中OssFileSystem和JindoFS都是云上存储的解决方案，下表为这三种存储系统和开源OSS各自的特点。特点开源OSS E-...

快速使用EMR Notebook

EMR Notebook提供了全托管的兼容开源Jupyter的Notebook服务，同时内置了SQL Editor的功能。支持SparkSQL、Hive、StarRocks、PySpark等应用程序的开发和运行。本文以Hive查询为例，为您介绍如何使用EMR Notebook。前提条件已完成系统角色...

Celeborn

阿里云Spark已完成Celeborn适配，开源Spark 3.5版本已完成Celeborn适配。spark.celeborn.shuffle.writer Celeborn的wirter支持的模式：hash（默认值）：在Partition并发度过大的情况下会使用较多的内存。sort：使用固定大小内存，在...

Celeborn介绍

Apache Celeborn是阿里云开源的中间数据服务，旨在提升大数据计算引擎的性能、稳定性和灵活性。Celeborn设计独立于具体引擎，支持Spark、Flink、MapReduce(MR)和 Tez，并且是目前最流行的Remote Shuffle Service的实现。Celeborn架构 ...

开源大数据平台 E-MapReduce

开源大数据平台E-MapReduce（Elastic MapReduce）是运行在阿里云平台上的一种大数据处理的系统解决方案。

什么是EMR on ECS

EMR on ECS是指在ECS上运行EMR，它将EMR的大数据处理能力与ECS的弹性灵活优势相结合，使得您能够更加便捷地配置和管理EMR集群，同时支持多种开源和自研大数据组件，适用于复杂的大数据处理和分析场景。产品架构 EMR主要由四部分组成，分别...

查看开源组件 Web 界面

在EMR集群中，为了确保集群安全，Hadoop、Spark和Flink等开源组件的Web界面端口均未对外开放。如果您想直接访问开源组件的Web界面，可根据实际场景选择原生UI地址、Knox代理地址、SSH本地端口转发或 SSH动态端口转发方式进行访问。快速...

Flink版本调整公告

为了更好地融入开源生态，提供更加开放和多样化的计算服务，阿里云E-MapReduce（简称EMR）从EMR-5.17.0和EMR-3.51.0版本开始，将Flink引擎版本从Flink企业版Ververica Runtime（简称VVR）调整为Flink社区开源版本，同时引入RocksDB作为存储...

产品简介

开源大数据开发平台E-MapReduce（简称EMR）是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

Zeppelin常见问题

EMR Studio上的Zeppelin与开源版本一致吗？如何设置Zeppelin Note的权限？Zeppelin执行时无法正常启动Interpreter EMR Studio上的Zeppelin与开源版本一致吗？EMR Studio上的Zeppelin是增强版的Zeppelin，与开源版本不一致。E-MapReduce的...

支持倚天云服务器

阿里云E-MapReduce支持使用倚天云服务器构建开源大数据集群。适用客户全网用户新增功能/规格阿里云E-MapReduce（简称EMR）支持使用倚天云服务器构建开源大数据集群。与现有X86架构实例体验完全相同的情况下，具有更高的性价比，帮助用户...