DataFlow集群的Flink DataStream API完全兼容开源的Flink版本,关于Flink DataStream API的详细信息,请参见 Flink DataStream API Programming Guide。上下游存储(Connector)EMR-5.17.0&3.51.0及之后版本 开源Flink的上下游存储,详情请...
Alluxio是一个面向基于云的数据分析和人工智能的开源的数据编排技术。Alluxio为数据驱动型应用和存储系统构建了桥梁,将数据从存储层移动到距离数据驱动型应用更近的位置,从而能够更容易被访问,同时使得应用程序能够通过一个公共接口连接...
EMR ClickHouse完全兼容开源版本的产品特性,同时提供集群快速部署、集群管理、扩容、缩容和监控告警等云上产品功能,并且在开源的基础上优化了ClickHouse的读写性能,提升了ClickHouse与EMR其他组件快速集成的能力。特性 特性 描述 列式...
Flink社区已提供了丰富的开源Connector,旧版Flink VVR中的各类自研Connector将停止功能更新。您可以通过使用开源Connector便捷地对接各种数据源和下游系统。说明 EMR-5.17.0、EMR-3.51.0版本开始使用Apache Flink 1.17.2版本,版本说明请...
OpenLDAP是LDAP协议(Lightweight Directory Access Protocol)的开源实现,在EMR集群中主要提供用户管理和身份认证的功能。服务集成OpenLDAP 在EMR集群中,Knox服务默认与OpenLDAP服务对接。当您通过EMR控制台的 访问链接与端口 功能访问...
EMR基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云其他的云数据存储系统和数据库系统(例如,阿里云OSS和RDS等)进行数据传输。产品介绍 阿里云EMR...
支持的开源组件有限。说明 该方式目前支持的服务如下:YARN、HDFS、SPARK2、SPARK3、FLINK、HBASE、IMPALA、TRINO、PRESTO、TEZ、RANGER。【外网访问】优点:开启端口少,只需开启Knox的端口8443。提供外部访问的能力,适合需要远程访问的...
Trino(即原PrestoSQL)是一个开源的分布式SQL查询引擎,适用于交互式分析查询。EMR-3.44.0和EMR-5.10.0版本开始改用社区正式名称Trino,之前各版本控制台显示为Presto,内核其实是Trino,使用时请注意区分。基本特性 Trino使用Java语言...
EMR Studio是E-MapReduce提供的开源大数据开发套件,包含Apache Zeppelin、Jupyter Notebook和Apache Airflow等开源组件。能够无缝关联EMR集群(EMR on ECS和EMR on ACK)的计算引擎提交任务,并提供了交互式开发、任务调度和任务监控等...
阿里云E-MapReduce(简称EMR)是云原生开源大数据平台,能够为用户提供简单易集成的开源大数据解决方案。EMR on ECS集群主要构建于ECS之上,集群资源归属于用户,EMR提供基于该资源的半托管云服务能力,用户对集群拥有完全的管理操作权限,...
与自建Hadoop集群相比,开源大数据开发平台EMR提供弹性资源管理和自动化运维,降低运维复杂度,通过用户管理、数据加密和权限管理等为数据安全保驾护航,同时EMR集成了丰富的开源组件并打通开源生态与阿里云生态,便于快速搭建大数据处理和...
Apache Celeborn是阿里云开源的中间数据服务,旨在提升大数据计算引擎的性能、稳定性和灵活性。Celeborn设计独立于具体引擎,支持Spark、Flink、MapReduce(MR)和 Tez,并且是目前最流行的Remote Shuffle Service的实现。Celeborn架构 ...
阿里云E-MapReduce产品构建于阿里云云服务器ECS上,基于开源的Apache Hadoop和Apache Spark,做了大量优化。本文为您介绍E-MapReduce(简称EMR)Spark相对开源增强的功能。背景信息 阿里云EMR 100%采用社区开源组件,随开源版本升级迭代,...
阿里云CLI 支持 阿里云命令行工具(Alibaba Cloud Command Line Interface)是在Alibaba Cloud SDK for Go之上构建的开源工具。阿里云CLI提供了对阿里云云产品OpenAPI的直接访问。您可以在命令行Shell中,使用 aliyun 命令与阿里云服务进行...
EMR Serverless StarRocks兼容开源StarRocks的SQL语法和函数,您可以参考以下文档进行开发设计。StarRocks版本 参考文档 3.3系列 SQL参考 函数参考 3.2系列 SQL参考 函数参考 2.5系列 SQL参考 函数参考
您需要在SSH连接中创建隧道以查看开源组件的Web页面,详情请参见 通过SSH隧道方式访问开源组件Web UI。默认用户名和密码均为admin,请您登录后及时修改密码。说明 首次登录后默认是英文界面。在Superset页面,单击右上角的 图标,选择 ...
由于ACK控制台上 访问链接与端口 不可用,您可通过以下配置访问开源组件的Web UI。登录 容器服务管理控制台。在 集群列表 页面,单击EMR on ACK所关联集群的 集群名称。鼠标悬浮在左边菜单栏 网络,单击 服务,在服务页面更新YAML文件。...
除了通过EMR控制台提供的链接地址访问开源组件Web界面外,还可通过SSH隧道方式进行安全访问。通过SSH隧道和SOCKS代理,您可在不暴露集群内部网络结构的情况下访问开源组件Web界面。说明 开源组件Web界面访问方式选择,请参见 查看开源组件 ...
E-MapReduce Doctor(简称EMR Doctor)是E-MapReduce产品自研的面向开源大数据集群的智能运维诊断系统。通过EMR Doctor(即 监控诊断 页面的“健康诊断”和“集群日报”功能)可以全局了解集群的健康状况和动态走势,为运维决策和资源优化...
EMR-3.27.x及之前版本使用Flink社区开源版本,EMR-3.27.x之后版本使用完全兼容开源Flink的企业版(VVR)。本文介绍如何配置Flink(VVR)类型的作业。背景信息 Flink企业版由Apache Flink创始团队官方出品,拥有全球统一商业化品牌。VVR提供...
通过Kyuubi Gateway,以兼容开源Kyuubi的方式提交SQL任务。数据目录 支持使用RAM用户(子账号)身份访问DLF。支持访问DLF 2.0 Hive Catalog。资源观测 支持观测工作空间、队列的资源消耗情况。运行环境 Spark Submit工具支持通过配置参数-...
高性能计算引擎:内置 Fusion Engine,性能可达开源 Spark 的 4 倍;支持 Remote Shuffle Service Celeborn,提供 PB 级 Shuffle 能力并降低计算成本。高扩展性与弹性:基于阿里云 Serverless 底座,提供秒级资源弹性伸缩,按实际计算资源...
通过访问链接与端口功能,您可方便地通过控制台方式访问集群中已安装开源组件Web界面的地址。本文将介绍如何设置安全组规则和访问链接,以便查看集群中开源组件的UI界面。说明 开源组件Web界面访问方式选择,请参见 查看开源组件 Web 界面...
EMR-5.11.0及之前版本,EMR-3.45.0及之前版本 重要 如果您的EMR版本较低,没有相应的LDAP认证配置按钮,则需要参考开源软件的社区文档进行手动配置,以启用LDAP认证功能。在 组件列表 区域,选择 SparkThriftServer 操作列的 enableLDAP。...
E-Mapreduce(简称EMR)开源组件运行过程中会产生大量的日志。日志管理功能将EMR与日志服务SLS相结合,允许您在EMR控制台直接查询开源组件的日志。前提条件 已在EMR控制台上创建集群,具体操作请参见 创建集群。已 开通日志服务。使用限制 ...
Hive语法 EMR产品最大程度的保持了开源社区的语法以及体验,在Hive语法上保持与开源社区Hive语法100%的兼容性。关于Apache Hive的更多介绍,请参见 Apache Hive官网。相关文档 如何使用Hive客户端连接Hive,请参见 Hive连接方式。Hive服务...
EMR-5.11.0及之前版本,EMR-3.45.0及之前版本 重要 如果您的EMR版本较低,没有相应的LDAP认证配置按钮,则需要参考开源软件的社区文档进行手动配置,以启用LDAP认证功能。在 组件列表 区域,选择 TrinoMaster 操作列的 enableLDAP。在弹出...
说明 本文部分内容来源于开源StarRocks的 什么是StarRocks。StarRocks特性 StarRocks的架构设计融合了MPP数据库,以及分布式系统的设计思想,其特性如下所示。架构精简 StarRocks内部通过MPP计算框架完成SQL的具体执行工作。MPP框架能够...
说明 在创建集群时,如果没有您想使用的组件,或者想使用的开源组件仅对存量用户开放,您可以自行安装并自行管理。EMR主要由开源组件、自研组件、集成的阿里云产品和集群管理四部分组成。您可以根据产品架构图查看EMR提供的大数据组件及...
稳定可靠的开源组件 100%采用社区开源组件,随开源版本升级迭代,详情请参见 发行版本。适配开源组件,避免开源组件之间的版本兼容性问题。基于开源组件,优化和增强阿里云部署环境,性能远高于开源版本。易用性 分钟级搭建大数据计算环境...
本文为您介绍开源组件常用端口。服务 端口 描述 Hadoop 2.X 50070 HDFS Web UI的端口。配置参数为 dfs.namenode.http-address 或 dfs.http.address 。说明 dfs.http.address 已过期但仍能使用。50075 DataNode Web UI的端口。50010 ...
EMR Studio上的Zeppelin与开源版本一致吗?如何设置Zeppelin Note的权限?Zeppelin执行时无法正常启动Interpreter EMR Studio上的Zeppelin与开源版本一致吗?EMR Studio上的Zeppelin是增强版的Zeppelin,与开源版本不一致。E-MapReduce的...
版本说明 MSE Nacos 版本 开源控制台默认状态 是否支持鉴权 描述 1.x及2.2.3.1之前的2.x版本 开启 不支持 默认开启开源控制台,且不支持鉴权,开源控制台的URL可被任何人访问,建议使用商业化控制台。若确实需要使用,建议 设置白名单 来...
Hadoop DistCp和Jindo DistCp的区别 DistCp类型 功能 使用场景 Hadoop DistCp 开源Hadoop内置的DistCp工具,用于大型集群间或集群内数据的复制。HDFS到HDFS间的数据复制。Jindo DistCp JindoFS的数据迁移工具,支持OSS、OSS-HDFS服务、兼容...
您可以将开源大数据服务部署在阿里云容器服务Kubernetes版(ACK)之上,利用ACK在服务部署和容器应用管理的优势,减少对底层集群资源的运维投入,以便于您可以更加专注大数据任务本身。前置概念 阅读本文前,您可能需要了解如下概念:什么...
与开源Delta Lake对比 EMR-Delta Lake丰富了开源Delta Lake的特性,例如对SQL和Optimize的支持等。下表列出了Delta Lake的基本特性,并对比EMR-Delta Lake与开源Delta Lake(0.6.1)。特性 EMR-Delta 开源Delta SQL ALTER CONVERT CREATE ...
Presto(即PrestoDB)是一款灵活、可扩展的分布式SQL查询引擎。本文介绍Presto的基本特性、系统组成和优势等信息。...例如,如果您的Presto版本号为0.279,则可以访问https://prestodb.io/docs/0.279/,查看相应版本的开源Presto文档。
内置函数清单 Serverless Spark 兼容开源内置函数的使用,开源具体函数说明请参见 Spark SQL Functions。此外,Serverless Spark 还支持多个特有内置函数,以下是特有支持的内置函数及其相关说明。函数 说明 PARQUET_SCHEMA 获取Parquet...
应用场景 E-MapReduce目前提供了三种大数据存储系统,E-MapReduce OssFileSystem、E-MapReduce HDFS和E-MapReduce JindoFS,其中OssFileSystem和JindoFS都是云上存储的解决方案,下表为这三种存储系统和开源OSS各自的特点。特点 开源OSS E-...
EMR on ECS发布基于大模型构建的新版监控诊断功能 适用客户 全网用户 新增功能/规格 EMR on ECS新版监控诊断是基于大模型构建的智能运维辅助功能,结合了阿里云EMR团队在开源大数据领域的知识经验、阿里云EMR可观测能力和技术专家的诊断...