通常情况下,只需要配置emr-master节点组所在机器的内网IP地址和hostname,即可访问EMR on ECS集群的Hive数据。说明 内网IP地址:旧版控制台,您可以在集群管理中的主机列表页面查看。新版控制台,您可以在集群的节点管理页面查看。...
背景信息 Impala使用与Apache Hive相同的元数据、SQL语法(Hive SQL)和ODBC驱动程序等,为面向批处理或实时查询提供了一个熟悉且统一的平台。注意事项 如果使用Impala组件,请勿直接通过系统文件删除hive表分区目录,请使用Impala或者Hive...
设置钉钉机器人报警后,您可以通过指定钉钉群接收报警通知。本文为您介绍如何配置钉钉机器人接收Kubeflow报警。前提条件 已创建DataScience集群,且选择了Kubeflow服务,详情请参见 创建集群。下载dsdemo代码:请已创建DataScience集群的...
Hadoop DistCp和Jindo DistCp的区别 DistCp类型 功能 使用场景 Hadoop DistCp 开源Hadoop内置的DistCp工具,用于大型集群间或集群内数据的复制。HDFS到HDFS间的数据复制。Jindo DistCp JindoFS的数据迁移工具,支持OSS、OSS-HDFS服务、兼容...
本文为您介绍 开源大数据平台 E-MapReduce 为 RAM 权限策略定义的操作(Action)、资源(Resource)和条件(Condition)。开源大数据平台 E-MapReduce 的 RAM 代码(RamCode)为 starrocks,sr,支持的授权粒度为 操作级。权限策略通用结构 ...
阿里云E-MapReduce(简称EMR)on ACK提供了全新构建大数据平台的方式。您可以将开源大数据服务部署在阿里云容器服务Kubernetes版(ACK)之上,利用ACK在服务部署和容器应用管理的优势,减少对底层集群资源的运维投入,以便于您可以更加专注...
注意事项 扩容的机器数必须是分区或副本的倍数。集群扩容,仅支持表结构迁移,不支持数据迁移。default数据库下的表结构不支持迁移。分片扩容是直接在原有的集群上增加节点,并在新增节点上创建分布式表和本地表,扩容后新写入的数据按照...
通过Kyuubi Gateway,以兼容开源Kyuubi的方式提交SQL任务。数据目录 支持使用RAM用户(子账号)身份访问DLF。支持访问DLF 2.0 Hive Catalog。资源观测 支持观测工作空间、队列的资源消耗情况。运行环境 Spark Submit工具支持通过配置参数-...
缺点:学习成本:需熟悉DataWorks开发规范。成本增加:需要额外支付DataWorks产品的使用费用。周期性ETL任务管理。需要进行复杂依赖管理的DAG工作流。通过集群Master节点提交作业 优点:操作便捷:无需额外配置客户端环境,可以直接使用...
本文描述开源大数据平台E-MapReduce支持的所有系统权限策略及其对应的权限描述,供您授权RAM身份时参考。什么是系统权限策略 权限策略是用语法结构描述的一组权限的集合,可以精确地描述被授权的资源集、操作集以及授权条件。阿里云访问...
问题原因 一般由于断电类机器异常或者磁盘写满,导致JournalNode写入发生异常。解决方案 检查NameNode是否可以正常工作:如果NameNode可以正常工作,建议按照如下步骤修复JournalNode:对NameNode触发手动checkpoint,参见 手动进行...
阿里云EMR on ACK提供了一种全新的构建大数据平台的方式。您可以将开源大数据服务部署在阿里云容器服务Kubernetes版(ACK)之上,利用ACK在服务部署和容器应用管理的优势,减少对底层集群资源的运维投入,以便于您可以更加专注大数据任务...
操作步骤 使用SSH隧道方式访问Web页面,详情请参见 通过SSH隧道方式访问开源组件Web UI。说明 建议您首次使用Kafka Manager时修改默认密码。为了防止8085端口暴露,建议使用SSH隧道方式来访问Web界面。如果使用 http://localhost:8085 方式...
Alluxio是一个面向基于云的数据分析和人工智能的开源的数据编排技术。Alluxio为数据驱动型应用和存储系统构建了桥梁,将数据从存储层移动到距离数据驱动型应用更近的位置,从而能够更容易被访问,同时使得应用程序能够通过一个公共接口连接...
参数值 参数名称 默认值 适用版本 影响说明 replication_num 副本个数 3 存算一体 如果将副本数量调整为1或2,则可能会存在数据丢失的风险,且可能导致计算倾斜等问题,进而引发机器宕机等故障。enable_persistent_index 是否开启主键索引...
2023年6月1日起,E-MapReduce Serverless StarRocks服务等级协议(SLA)生效。详情请参见 开源大数据平台E-MapReduce Serverless服务等级协议。
hdfs.threadsPoolSize 默认值为10,HDFS IO线程数,根据机器配置调整。hdfs.useLocalTimeStamp 默认值为false。表示是否使用本地时间戳。如果需要在Event的Head中添加时间戳,设置该参数值为true。hdfs.rollInterval 默认值为30,单位为秒...
包年包月 计费项规格 调整前费用(元)调整后费用(元)调整幅度 说明 华北3(张家口)107.2 157 46.46%将使用更高配置的机型,机器成本和性能均得到提升。新加坡 249 201-19.28%因成本降低,性能不受影响。中国香港 271.35 221-18.56%因...
关于阿里云EMR Serverless Spark产品和服务的相关问题,您可以通过以下渠道寻求支持和解决。...填写相关问题信息,产品分类 选择 开源大数据平台 E-MapReduce。单击 提交。售后服务SLA 售后服务SLA详情,请参见 企业支持计划 的内容。
本文为您介绍 开源大数据平台 E-MapReduce 为 RAM 权限策略定义的操作(Action)、资源(Resource)和条件(Condition)。开源大数据平台 E-MapReduce 的 RAM 代码(RamCode)为 emr-serverless-spark,支持的授权粒度为 操作级。权限策略...
内置函数清单 Serverless Spark 兼容开源内置函数的使用,开源具体函数说明请参见 Spark SQL Functions。此外,Serverless Spark 还支持多个特有内置函数,以下是特有支持的内置函数及其相关说明。函数 说明 PARQUET_SCHEMA 获取Parquet...
E-Mapreduce(简称EMR)开源组件运行过程中会产生大量的日志。日志管理功能将EMR与日志服务SLS相结合,允许您在EMR控制台直接查询开源组件的日志。前提条件 已在EMR控制台上创建集群,具体操作请参见 创建集群。已 开通日志服务。使用限制 ...
EMR用户可以用于访问链接与端口,查看开源组件Web UI时的用户身份认证,也可以在开启组件LDAP认证之后进行身份认证。如果将Ranger的用户源设置为LDAP,则可以对用户管理中的用户进行权限控制。如果是高安全集群,EMR用户可以用于Kinit操作...
访问HDFS Web UI 您可以通过SSH隧道和控制台两种方式访问HDFS Web UI,具体操作请参见 通过SSH隧道方式访问开源组件Web UI 和 访问链接与端口。NameNode服务地址 版本 访问地址 说明 hadoop 3.x http://${namenode_hostname}:9870${...
产品优势如下:云原生极速计算引擎 内置Fusion Engine(Spark Native Engine),相对开源版本性能提升300%。内置Celeborn(Remote Shuffle Service),支持PB级Shuffle数据,计算资源总成本最高下降30%。开放化的数据湖架构 支持计算存储分离...
JindoData是阿里云开源大数据团队自研的数据湖存储加速套件,面向大数据和AI生态,为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现,主要包括 JindoFS 存储系统(原JindoFS Block模式)...
EMR Serverless StarRocks介绍 EMR Serverless StarRocks是开源StarRocks在阿里云上的全托管服务,您可以通过其灵活地创建和管理实例以及数据。本文为您介绍StarRocks的核心特性,并详述EMR Serverless StarRocks在此基础之上所引入的诸多...
EMR Serverless StarRocks不仅无缝兼容开源StarRocks,并且具备自动升级软件版本的功能,可省去手动管理版本的繁琐与风险。迁移方案详情,请参见 迁移StarRocks数据至EMR Serverless StarRocks。操作步骤 重要 集群扩容操作不会重启存量...
本文为您介绍 开源大数据平台 E-MapReduce 为 RAM 权限策略定义的操作(Action)、资源(Resource)和条件(Condition)。开源大数据平台 E-MapReduce 的 RAM 代码(RamCode)为 emr,支持的授权粒度为 资源级。权限策略通用结构 权限策略...
EMR Workflow介绍 EMR Workflow是一个全托管的工作流和任务调度服务,100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务,您可以通过可视化的操作界面轻松地管理工作流和任务,高效构建数据仓库,并为生产任务的稳定运行...
HostGroupId String 是 G-EF460256A55F*机器组ID。您可以调用 ListClusterHostGroup 查看机器组ID。RegionId String 是 cn-hangzhou 地域ID。您可以调用 DescribeRegions 查看最新的阿里云地域列表。InstanceIdList String 否["i-bp1bm7y86...
EMR-5.11.0及之前版本,EMR-3.45.0及之前版本 重要 如果您的EMR版本较低,没有相应的LDAP认证配置按钮,则需要参考开源软件的社区文档进行手动配置,以启用LDAP认证功能。在 组件列表 区域,选择 SparkThriftServer 操作列的 enableLDAP。...
HostGroupId String 是 G-AB1234567*机器组ID。您可以调用 ListClusterHostGroup 查看机器组ID。Name String 是 test 伸缩组名称。您可以自定义设置。RegionId String 是 cn-hangzhou 区域ID。您可以调用 DescribeRegions 接口查看最新的...
对于单条没有JOIN的查询语句,您可以在Impala控制台通过命令设置mt_dop参数为n以提升并发度,其中n为每台机器的并发度。Ranger开启Impala后,新扩容的Impala节点无法正常工作,该怎么办?问题现象:EMR-5.6.0及之前的版本,在EMR控制台上...
C-E525E04F3914*NodeGroup NodeGroupConfig 是 机器组信息。返回参数 名称 类型 描述 示例值 object 返回数据。NodeGroupId string 机器组 ID。G-21E39B11837E*RequestId string 请求 ID。9E3A7161-EB7B-172B-8D18-FFB06BA3*示例 正常返回...
本文描述开源大数据平台 E-MapReduce支持的所有系统权限策略及其对应的权限描述,供您授权RAM身份时参考。什么是系统权限策略 权限策略是用语法结构描述的一组权限的集合,可以精确地描述被授权的资源集、操作集以及授权条件。阿里云访问...
不会克隆到新集群的信息:创建集群后,您手动在集群机器上修改的文件或内容,例如JAR包等,无法克隆到新集群。注意事项 针对2022年09月07日之前创建的集群,如果处于创建失败、释放失败或已释放状态,因集群信息历史记录不完整,无法进行...
数据湖元数据DLF是阿里云提供的统一元数据服务,具有高可用、免运维和高性能等优点,兼容Hive Metastore,无缝对接EMR上开源计算引擎,并支持多版本管理和Data Profile功能。另外,DLF还支持数据探索、湖管理和数据权限控制等功能,并与...
Fusion引擎是EMR Serverless Spark内置的高性能向量化SQL执行引擎,相比开源Spark在TPC-DS基准测试上有3倍性能提升。Fusion引擎与开源Spark完全兼容,您无需对现有代码做任何修改。在EMR Serverless Spark中,只需在创建会话时开启 使用...
集群类型 Data Science:主要面向大数据+AI场景,提供Hive和Spark离线大数据ETL和TensorFlow模型训练,您可以选择CPU+GPU的异构计算框架,通过英伟达GPU对部分深度学习算法进行高性能计算。产品版本 默认最新的软件版本。组件版本 展示集群...