EMR Serverless StarRocks介绍 EMR Serverless StarRocks是开源StarRocks在阿里云上的全托管服务,您可以通过其灵活地创建和管理实例以及数据。本文为您介绍StarRocks的核心特性,并详述EMR Serverless StarRocks在此基础之上所引入的诸多...
概述 2025年11月12日,我们正式对外发布 Serverless Spark 新版本,包括平台管理、性能优化以及引擎能力。平台侧 功能分类 功能更新说明 相关文档 AI 中心(Beta)新增支持AI Function功能,提供开箱即用的Qwen大模型能力,能够有效调用大...
EMR Workflow介绍 EMR Workflow是一个全托管的工作流和任务调度服务,100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务,您可以通过可视化的操作界面轻松地管理工作流和任务,高效构建数据仓库,并为生产任务的稳定运行...
EMR Workflow是一个全托管的工作流和任务调度服务,100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务,您可以通过可视化的操作界面轻松地管理工作流和任务,高效构建数据仓库,并为生产任务的稳定运行提供保障。EMR ...
EMR Workflow是一个全托管的工作流和任务调度服务,100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务,您可以通过可视化的操作界面轻松地管理工作流和任务,高效构建数据仓库,并为生产任务的稳定运行提供保障。本文以...
数据湖元数据DLF是阿里云提供的统一元数据服务,具有高可用、免运维和高性能等优点,兼容Hive Metastore,无缝对接EMR上开源计算引擎,并支持多版本管理和Data Profile功能。另外,DLF还支持数据探索、湖管理和数据权限控制等功能,并与...
除了通过EMR控制台提供的链接地址访问开源组件Web界面外,还可通过SSH隧道方式进行安全访问。通过SSH隧道和SOCKS代理,您可在不暴露集群内部网络结构的情况下访问开源组件Web界面。说明 开源组件Web界面访问方式选择,请参见 查看开源组件 ...
通过访问链接与端口功能,您可方便地通过控制台方式访问集群中已安装开源组件Web界面的地址。本文将介绍如何设置安全组规则和访问链接,以便查看集群中开源组件的UI界面。说明 开源组件Web界面访问方式选择,请参见 查看开源组件 Web 界面...
E-MapReduce支持在集群成功创建后...相关文档 如果您需要访问服务的Web UI,详情请参见 通过控制台访问开源组件Web界面。如果您需要查看服务的状态,详情请参见 查看服务和组件健康状态。如果有服务相关的问题,详情请参见 集群管理常见问题。
在EMR集群中,为了确保集群安全,Hadoop、Spark和Flink等开源组件的Web界面端口均未对外开放。如果您想直接访问开源组件的Web界面,可根据实际场景选择 原生UI地址、Knox代理地址、SSH本地端口转发 或 SSH动态端口转发 方式进行访问。快速...
准备工作 创建EMR on ACK集群前,需要在 容器服务管理控制台,进行以下操作:创建Kubernetes集群,详情请参见 创建ACK专有集群 或 创建ACK托管集群。添加AliyunOSSFullAccess和AliyunDLFFullAccess权限,详情请参见 授予OSS和DLF权限。说明...
本文为您介绍开源组件常用端口。服务 端口 描述 Hadoop 2.X 50070 HDFS Web UI的端口。配置参数为 dfs.namenode.http-address 或 dfs.http.address 。说明 dfs.http.address 已过期但仍能使用。50075 DataNode Web UI的端口。50010 ...
基于统一的元数据管理能力,在完全兼容HDFS文件系统接口的同时,提供充分的POSIX能力支持,能更好地满足大数据和AI等领域的数据湖计算场景。更多信息,请参见 什么是OSS-HDFS服务。JindoData是阿里云开源大数据团队自研的数据湖存储加速...
EMR Notebook提供了全托管的兼容开源Jupyter的Notebook服务,同时内置了SQL Editor的功能。支持SparkSQL、Hive、StarRocks、PySpark等应用程序的开发和运行。本文以Hive查询为例,为您介绍如何使用EMR Notebook。前提条件 已完成系统角色...
创建运行环境 域名管理 提供域名管理功能,以解决云环境中的DNS解析问题,确保任务能够正确、高效地访问外部服务或资源。管理域名 配置模板 支持创建多个配置模板,在提交任务时可以指定具体的配置模板,以便根据配置模板生效相应的配置...
概述 2025年3月3日,我们正式对外发布Serverless Spark新版本,包括平台管理、性能优化以及引擎能力。平台侧 功能分类 功能更新说明 相关文档 售卖 新增按量付费下的计算资源抵扣包,价格更优惠。首次购买3000 CU*小时规格的抵扣包,可享受...
EMR Serverless StarRocks不仅无缝兼容开源StarRocks,并且具备自动升级软件版本的功能,可省去手动管理版本的繁琐与风险。迁移方案详情,请参见 迁移StarRocks数据至EMR Serverless StarRocks。操作步骤 重要 集群扩容操作不会重启存量...
EMR Studio是E-MapReduce提供的开源大数据开发套件,包含Apache Zeppelin、Jupyter Notebook和Apache Airflow等开源组件。能够无缝关联EMR集群(EMR on ECS和EMR on ACK)的计算引擎提交任务,并提供了交互式开发、任务调度和任务监控等...
Gateway 类型 Livy是一个提供REST接口的服务,用于简化与Spark的交互。通过Livy,您可以利用Airflow中的livy_operator以及spark_magic等开源项目,向Serverless Spark提交任务、查询任务状态并获取计算结果。Kyuubi提供了JDBC/ODBC接口,...
Trino(即原PrestoSQL)是一个开源的分布式SQL查询引擎,适用于交互式分析查询。EMR-3.44.0和EMR-5.10.0版本开始改用社区正式名称Trino,之前各版本控制台显示为Presto,内核其实是Trino,使用时请注意区分。基本特性 Trino使用Java语言...
EMR Notebook是一个Serverless化的交互式数据分析和探索平台,满足大数据和AI融合下的数据处理需求,为数据工程师、数据分析师和数据科学家提供了可视化的应用程序开发环境。通过EMR Notebook可以完成对SQL、Python、Markdown等多种语言...
Apache Celeborn是阿里云开源的中间数据服务,旨在提升大数据计算引擎的性能、稳定性和灵活性。Celeborn设计独立于具体引擎,支持Spark、Flink、MapReduce(MR)和 Tez,并且是目前最流行的Remote Shuffle Service的实现。Celeborn架构 ...
Livy是一个提供REST接口的服务,用于简化与Spark的交互。通过Livy,您可以利用Airflow中的livy_operator以及spark_magic等开源项目,向Serverless Spark提交任务、查询任务状态并获取计算结果。Kyuubi提供了JDBC/ODBC接口,支持通过SQL查询...
阿里云安全责任 阿里云负责保障平台自身安全。责任包括:针对阿里云安全中心发现的EMR大数据服务组件安全漏洞,发布相关公告,并提供相应的漏洞补丁及操作流程。基于完备的阿里云综合安全产品体系,保障EMR产品内部使用的计算、存储、网络...
Presto使用Catalog、Schema和Table三层结构来管理数据。Catalog:一个Catalog可以包含多个Schema,物理上指向一个外部数据源,可以通过Connector访问该数据源。一次查询可以访问一个或多个Catalog。Schema:相当于一个数据库实例,一个...
E-MapReduce Doctor(简称EMR Doctor)是E-MapReduce产品自研的面向开源大数据集群的智能运维诊断系统。通过EMR Doctor(即 监控诊断 页面的“健康诊断”和“集群日报”功能)可以全局了解集群的健康状况和动态走势,为运维决策和资源优化...
元数据管理:支持外部Hive Metastore作为元数据服务。接口调用:提供Spark Thrift Server服务以支持JDBC接口调用。提供Livy服务以支持REST API调用。提供spark_submit执行命令。Notebook 支持PySpark、Python以及Markdown开发。支持数据...
说明 如果您创建的集群未选择Knox服务,可以通过 新增服务 来添加。准备工作 设置安全组访问 获取您当前设备的公网访问IP地址。为了安全的访问集群组件,在设置安全组策略时,推荐您只针对当前的公网访问IP地址开放。访问 IP地址,即可查看...
阿里云EMR针对不同业务场景提供了数据湖集群、数据分析集群、实时数据流集群、数据服务集群四类预定义业务场景。若您的业务需集成特定组合的组件,您可创建自定义集群,灵活组合EMR提供的组件,打造适配业务特性的大数据平台。本文将为您...
前提条件 已创建E-MapReduce(简称EMR)的Hadoop或Druid集群,并选择了Superset服务,详情请参见 创建集群。使用限制 Superset默认安装在emr-header-1节点,暂不支持HA。Superset不支持通过KNOX访问Web UI。在使用Superset前,确保您的主机...
Kafka Manager是专为Kafka设计的集群管理工具,提供了WebUI界面,允许用户通过图形化界面便捷地管理Kafka集群。本文为您介绍如何访问Kafka Manager的WebUI,并将集群添加至Kafka Manager的WebUI界面。前提条件 已创建选择了Kafka服务的...
例如,MaxCompute、Hologres和 人工智能平台 PAI 等。多个EMR集群时,可以统一管理元数据。前提条件 已在E-MapReduce on ACK控制台创建Spark集群,详情请参见 步骤一:创建集群。使用数据湖元数据DLF方式时,需要确保已开通数据湖构建DLF,...
Kudu是一个分布式的,具有可扩展性的列式存储管理器,可以对快速变化的数据进行快速分析。使用场景 典型的应用场景如下:近实时计算场景 时间序列数据的场景 预测建模 与存量数据共存 通常生产环境中会有大量的存量数据,数据可能存储在...
本文为您介绍如何通过E-MapReduce(简称EMR)的用户管理功能,管理集群中的EMR用户。背景信息 EMR用户信息存储在集群自带的OpenLDAP中,主要用于E-MapReduce集群内的身份认证。EMR用户可以用于访问链接与端口,查看开源组件Web UI时的用户...
本文将为您介绍E-MapReduce服务的权限管理体系。权限体系 类别 说明 权限主体 E-MapReduce支持的权限主体如下:用户:包含阿里云账号、RAM用户。支持添加、删除、查询用户等管理操作。详细用户管理信息,请参见 RAM用户概览。角色:E-...
Serverless的资源平台 开箱即用,无需手动管理和运维云基础设施。弹性伸缩,秒级资源弹性与供给。按量付费,按实际计算资源量付费,进一步降低计算总成本。更多信息,请参见 什么是EMR Serverless Spark。控制台入口:立即前往。支持地域 ...
JindoManager系统管理 增加了JindoManager服务,集中负责Jindo系统的运维管理以及状态监控等附加功能,提供了Web UI服务,以及查看各项Jindo系统状态。JindoTools工具集 Jindo DistCp工具针对小文件优化了Job Commiter的逻辑,大幅减少OSS...
该场景涵盖的面很广,例如:实时指标监控 推荐模型 广告平台 搜索模型 Apache Druid架构 Apache Druid拥有优秀的架构设计,多个组件协同工作,共同完成数据从摄取到索引、存储和查询等一系列流程。Druid工作层(数据索引以及查询)包含以下...
Statestore服务对应的进程名为Statestored,负责管理集群中所有Impalad进程的健康状态,并将状况结果转发到所有Impalad进程。当某一个Impalad进程由于节点异常、网络异常或软件问题等导致节点不可用时,StateStore确保将状况结果通知其他...
Hive是一个基于Hadoop的数据仓库框架,在大数据业务场景中,主要用来进行数据提取、转化和加载(ETL)以及元数据管理。Hive结构 名称 说明 HiveServer2 HiveQL查询服务器,可以配置为Thrift或者HTTP协议,接收来自JDBC客户端提交的SQL请求...