本文介绍MSE流量防护与开源Sentinel、Hystrix两个限流相关组件的对比。MSE提供了能力完善、配套齐全、开箱即用的流量防护能力。阿里巴巴中间件团队在多年的双十一大促活动中积累了丰富的流量防护经验和方法论,并将其体系化应用到MSE中,...
EMR Workflow是一个全托管的工作流和任务调度服务,100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务,您可以通过可视化的操作界面轻松地管理工作流和任务,高效构建数据湖仓,并为生产任务的稳定运行提供保障。产品优势 ...
开源K8s环境中的应用接入MSE治理中心 为开源K8s环境中的Spring Cloud和Dubbo应用提供无侵入的微服务治理能力,包含无损下线、离群实例摘除、服务查询、服务鉴权、服务测试和金丝雀发布,大幅提升线上微服务的稳定性和开发效率。详情可参见 ...
说明 示例中的 mysql-connector-java-*.jar,请根据MySQL Driver的实际版本填写。查看JDBC Catalog 您可以通过SHOW CATALOGS查询当前所在StarRocks集群里所有Catalog。SHOW CATALOGS;您也可以通过SHOW CREATE CATALOG查询某个External ...
您需要在SSH连接中创建隧道以查看开源组件的Web页面,详情请参见 通过SSH隧道方式访问开源组件Web UI。默认用户名和密码均为admin,请您登录后及时修改密码。说明 首次登录后默认是英文界面。在Superset页面,单击右上角的 图标,选择 ...
本文为您介绍开源大数据开发平台E-MapReduce(简称EMR)的产品生命周期策略及产品终止策略(包含产品粒度与发行版本粒度),以便您知晓详细规则,提早做好相应准备。背景信息 产品的更新换代是基础技术软件领域的常态。在开源大数据社区蓬勃...
org.apache.zeppelin.interpreter.InterpreterException:java.io.IOException:Interpreter process is not running 解决方式:您可以参照以下命令解决该问题。rm-f/usr/lib/zeppelin-current/interpreter/zeppelin-interpreter-shaded-0.10...
SmartData组件是EMR Jindo引擎的存储部分,为EMR各个计算引擎提供统一的存储、缓存、计算优化以及功能扩展。SmartData组件主要包括JindoFS、JindoTable和相关工具集。本文介绍SmartData(3.5.x)版本的更新内容。JindoFS OSS扩展和支持 ...
esr-4.3.0(Spark 3.5.2,Scala 2.12,Java Runtime)queueName string 否 队列名称。root_queue cpuLimit string 否 Livy Server 的 CPU 核数。1 2 4 1 memoryLimit string 否 Livy Server 的内存大小。4Gi 8Gi 16Gi 4Gi ...
esr-4.3.0(Spark 3.5.2,Scala 2.12,Java Runtime)queueName string 否 提交队列名称。root_queue cpuLimit string 否 Livy Server 的 CPU 核数。1 2 4 1 memoryLimit string 否 Livy Server 的内存大小。4Gi 8Gi 16Gi 4Gi ...
本文介绍如何解决MSE Nacos开源控制台鉴权不生效问题。问题现象 在Nacos的开源控制台中创建了新用户,并为该用户设置了某个命名空间权限,但没有生效(仍然可以访问其他命名空间)。已修改用户密码,且已删除用户,但是程序仍然可以使用旧...
在构建引擎时,引擎中的TickTime、InitLimit、SyncLimit、MaxClientCnxns、OpenSuperAcl、Jute.Maxbuffer和SessionTimeout等参数采用默认配置。如果在使用时,您有特殊要求可以参考本节内容修改对应的参数,优化引擎性能。本文介绍如何在...
阿里云E-MapReduce(简称EMR)是云原生开源大数据平台,能够为用户提供简单易集成的开源大数据解决方案。EMR on ECS集群主要构建于ECS之上,集群资源归属于用户,EMR提供基于该资源的半托管云服务能力,用户对集群拥有完全的管理操作权限,...
在分布式任务调度领域中,Quartz、ElasticJob是广受欢迎的开源解决方案。本文主要介绍 MSE SchedulerX 和这两个开源项目的比对。项目 Quartz Elastic-Job SchedulerX 定时调度 Cron Cron Cron、Fixed_Delay、Fixed_Rate、One_Time、OpenAPI...
Serverless 应用引擎 SAE(Serverless App Engine)集成了 应用实时监控服务 ARMS(Application Real-Time Monitoring Service),ARMS 应用监控将在3.0.X版本终止对Java 7的支持。2022年07月,Java官方正式停止了对Java 7的扩展支持,将...
本文介绍开源大数据平台E-MapReduce使用过程中遇到的常用名词的基本概念和简要描述。集群 E-MapReduce产品中的一个独立的机器组合,为上层业务提供一些基础的引擎服务。一个E-MapReduce集群是由一个或多个阿里云ECS实例组成的。ECS实例 在E...
概述 2024年09月14日,我们正式对外发布Serverless Spark新版本,包括平台升级、生态对接、性能优化以及引擎能力。平台侧 功能分类 功能更新说明 工作空间管理 支持调整额配。支持RAM角色添加或删除工作空间。优化工作空间状态流转,支持...
数据湖存储格式 Hudi、Iceberg、Paimon 提供多种数据湖存储格式,满足用户实时(Hudi)、分析(Iceberg)、流批一体(Paimon)多种数据湖处理需求,同时兼容Spark、Hive、Presto、Trino等主流分析引擎。湖元数据治理 Data Lake Formation...
Apache Doris是一个高性能、实时的分析型数据库,能够较好的满足报表分析、即席查询、数据湖联邦查询加速等使用场景。本文为您介绍Apache Doris。背景信息 关于更多Apache Doris信息,详情请参见 Doris介绍。使用场景 数据源经过各种数据...
适用场景 OLAP多维分析 用户行为分析 用户画像、标签分析、圈人 高维业务指标报表 自助式报表平台 业务问题探查分析 跨主题业务分析 财务报表 系统监控分析 实时数仓 电商大促数据分析 教育行业的直播质量分析 物流行业的运单分析 金融行业...
性能诊断 功能是用于分析和优化性能的关键工具,通过 性能诊断 功能可以帮助您发现和解决报表和数据分析操作中的性能问题,提高报表查询的速度和响应性能,提升您对数据的分析效率和准确性。使用限制 仪表板、电子表格和数据大屏模块支持 ...
本文介绍 Serverless 应用引擎 SAE(Serverless App Engine)API各语言SDK的下载地址。SDK下载 SAE API的SDK支持以下语言,各语言对应的SDK下载地址如下表所示。语言 下载地址 Java Alibaba Cloud SAE SDK for Java Go Alibaba Cloud SAE ...
概述 2024年11月25日,我们正式对外发布Serverless Spark新版本,包括平台升级、生态对接、性能优化以及引擎能力。平台侧 功能分类 功能更新说明 任务编排 支持调度Notebook类型任务。任务历史 支持在开发任务页面查看Stdout和Stderr日志。...
概述 2024年8月20日,我们正式对外发布Serverless Spark新版本,包括平台升级、生态对接、性能优化以及引擎能力。平台侧 功能分类 功能更新说明 任务开发 支持开发以下任务类型:SparkSQL Application(批任务):JAR、PySpark、SQL、Spark...
有开源产品同样可以实现分布式任务调度,本文介绍SchedulerX和开源产品的对比,帮助您更好的了解分布式任务调度和SchedulerX。产品名称 定时调度 工作流 分布式任务 白屏化任务治理 任务类型 报警监控 使用成本 Quartz Cron 不支持 不支持 ...
阿里云E-MapReduce SDK包含阿里云Java SDK公共部分和E-MapReduce部分,公共部分依赖 aliyun-java-sdk-core,E-MapReduce部分依赖 aliyun-java-sdk-emr。我们推荐您采用Maven的方式来管理您的工程。Maven依赖 dependency groupId ...
在EMR集群中,为了确保集群安全,Hadoop、Spark和Flink等开源组件的Web界面端口均未对外开放。如果您想直接访问开源组件的Web界面,可根据实际场景选择 原生UI地址、Knox代理地址、SSH本地端口转发 或 SSH动态端口转发 方式进行访问。快速...
多网卡或配置了虚拟网卡的情况下,请在启动脚本中修改 JAVA_OPTS 变量,添加-Dnetwork_interface_binding=XX 指定物理网卡。检查以下端口是否被占用,如被占用请关闭相关进程:9600、9601、9603、9610、9611、9612、9614、9615、9620、9621...
OpenLDAP是LDAP协议(Lightweight Directory Access Protocol)的开源实现,在EMR集群中主要提供用户管理和身份认证的功能。服务集成OpenLDAP 在EMR集群中,Knox服务默认与OpenLDAP服务对接。当您通过EMR控制台的 访问链接与端口 功能访问...
Livy是一个通过REST接口或RPC client库与Spark服务进行交互的服务。Livy支持提交Spark作业或者Spark代码片段,同步或者异步的进行结果检索以及Spark ...提交作业 您可以通过以下方式提交作业:REST API Programmatic API Java API Scala API
EMR Doctor的任务采集使用Java探针技术,不会单独启动Java进程监控。采集使用异步方式,不会阻塞任务主进程,当采集造成的压力过大时,会自动丢弃采集数据,并且您可以根据参数调整采集频率等。TPC-DS部分测试的数据如下表所示。SQL及使用...
背景信息 Tez主要使用在Apache Hive中,作为Hive的一种运行时引擎,可以优化Hive SQL的查询引擎。与Hive On MR(MapReduce)相比,Hive On Tez具有更好的查询性能和稳定性。Hive基于MapReduce提交任务和基于Tez提交任务流程图如下所示:Tez...
内置函数清单 Serverless Spark 兼容开源内置函数的使用,开源具体函数说明请参见 Spark SQL Functions。此外,Serverless Spark 还支持多个特有内置函数,以下是特有支持的内置函数及其相关说明。函数 说明 PARQUET_SCHEMA 获取Parquet...
开源项目 2018 年 4 月,蚂蚁集团宣布开源 SOFAStack 金融级分布式架构。得益于社区的信任和支持,目前已经累积超过 3.4 万的 Star 数和超过 100 家企业用户,并持续向打造金融级云原生多个技术领域的标杆努力(数据统计截止时间为 2020 月...
阿里云 EMR Serverless Spark 的 Notebook 会话中引入了 DuckDB 的 Python 库,除了支持 DuckDB 开源版本所具备的所有功能外,还额外提供了免密访问 OSS/OSS-HDFS 的能力,从而能够直接读取 OSS 路径下的文件进行操作。背景信息 DuckDB 是...
Hive MetaStore 元数据管理模块,此模块被其他引擎所依赖,用于存储Database和Table等元信息。例如,Spark和Presto均依赖此模块作为其元数据管理。Hive Client Hive客户端,直接利用该客户端提交SQL作业,根据其设置运行引擎配置,可以将...
大数据分析(Hive/Spark 报表):减少报表生成时间,优化计算集群成本。湖仓一体:减少请求费用,优化数据目录(catalog)的响应延迟。AI:加速训练等场景,降低AI集群使用成本,提供更全面的能力支持。缓存策略 JindoCache支持数据缓存...
Spark是一个通用的大数据分析引擎,具有高性能、易用性和普遍性等特点。架构 Spark架构如下图所示,基于Spark Core构建了Spark SQL、Spark Streaming、MLlib和Graphx四个主要编程库,分别用于离线ETL(Extract-Transform-Load)、在线数据...
与自建Hadoop集群相比,开源大数据开发平台EMR提供弹性资源管理和自动化运维,降低运维复杂度,通过用户管理、数据加密和权限管理等为数据安全保驾护航,同时EMR集成了丰富的开源组件并打通开源生态与阿里云生态,便于快速搭建大数据处理和...
MSE ZooKeeper引擎类型分为企业版、专业版和开发版,本文介绍ZooKeeper引擎版本说明。MSE ZooKeeper企业版:MSE ZooKeeper 企业版 支持 SLA 99.99%,适用于企业级生产环境,对稳定性、数据安全有更高。MSE ZooKeeper专业版:支持多节点,...