商城小程序开源-商城小程序开源文档介绍内容-移动阿里云

Flink

背景信息 EMR Flink完全兼容开源Flink，相关内容请参见社区文档。例如：DataStream API Table API&SQ Python API 使用场景 Flink广泛应用于大数据实时化的场景，本文从技术领域和企业应用场景进行介绍。技术领域从技术领域的角度，Flink...

Knox

cd/opt/apps/KNOX/knox-current/templates sh ldap-sample-users.sh 访问Web UI 访问Web UI的详情，请参见通过控制台访问开源组件Web界面。常见问题 Q：Knox组件异常停止，启动Knox的时候报错 Failed to start gateway:org.apache.hadoop....

DeltaLake

与开源Delta Lake对比 EMR-Delta Lake丰富了开源Delta Lake的特性，例如对SQL和Optimize的支持等。下表列出了Delta Lake的基本特性，并对比EMR-Delta Lake与开源Delta Lake（0.6.1）。特性 EMR-Delta 开源Delta SQL ALTER CONVERT CREATE ...

管理笔记本

笔记本概述笔记本是进行程序开发的载体，每个笔记本对应一个.ipynb文件。您可以在一个工作空间内创建一个或多个笔记本。每个笔记本由单元格（Cell）组成。目前EMR Notebook支持以下类型的单元格：SQL：用于编辑和运行SQL代码。Python：...

访问Web UI

由于ACK控制台上访问链接与端口不可用，您可通过以下配置访问开源组件的Web UI。登录容器服务管理控制台。在集群列表页面，单击EMR on ACK所关联集群的集群名称。鼠标悬浮在左边菜单栏网络，单击服务，在服务页面更新YAML文件。...

基本概念

可用区之间内网互通，可用区内网络延时更小。StarRocks实例每一个创建的StarRocks集群（包括多台FE及多台BE节点）统称为一个StarRocks实例。FE（Frontend）FE是StarRocks的前端节点，负责管理元数据，管理客户端连接，进行查询规划，查询...

身份管理

将人员用户和程序用户分离。创建RAM用户时，支持设置控制台访问和使用永久AccessKey访问两种访问方式。控制台用户使用账号和密码访问云产品控制台，API用户使用访问密钥AK（AccessKey）调用API访问云资源。建议您将两个不同的使用...

身份管理

将人员用户和程序用户分离。创建RAM用户时，支持设置控制台访问和使用永久AccessKey访问两种访问方式。控制台用户使用账号和密码访问云产品控制台，API用户使用访问密钥AK（AccessKey）调用API访问云资源。建议您将两个不同的使用...

产品形态选型

高性能计算引擎：内置 Fusion Engine，性能可达开源 Spark 的 4 倍；支持 Remote Shuffle Service Celeborn，提供 PB 级 Shuffle 能力并降低计算成本。高扩展性与弹性：基于阿里云 Serverless 底座，提供秒级资源弹性伸缩，按实际计算资源...

身份管理

将人员用户和程序用户分离。创建RAM用户时，支持设置控制台访问和使用永久AccessKey访问两种访问方式。控制台用户使用账号和密码访问云产品控制台，API用户使用访问密钥AK（AccessKey）调用API访问云资源。建议您将两个不同的使用...

身份管理

将人员用户和程序用户分离。创建RAM用户时，支持设置控制台访问和使用永久AccessKey访问两种访问方式。控制台用户使用账号和密码访问云产品控制台，API用户使用访问密钥AK（AccessKey）调用API访问云资源。建议您将两个不同的使用...

Flink（VVR）作业配置

EMR-3.27.x及之前版本使用Flink社区开源版本，EMR-3.27.x之后版本使用完全兼容开源Flink的企业版（VVR）。本文介绍如何配置Flink（VVR）类型的作业。背景信息 Flink企业版由Apache Flink创始团队官方出品，拥有全球统一商业化品牌。VVR提供...

在Notebook中使用DuckDB

阿里云 EMR Serverless Spark 的 Notebook 会话中引入了 DuckDB 的 Python 库，除了支持 DuckDB 开源版本所具备的所有功能外，还额外提供了免密访问 OSS/OSS-HDFS 的能力，从而能够直接读取 OSS 路径下的文件进行操作。背景信息 DuckDB 是...

支持配置托管弹性伸缩

EMR on ECS 支持配置托管弹性伸缩，自动调整Task节点的数量。适用客户全网用户新增功能/规格托管弹性伸缩功能开启后，系统将持续监控集群YARN的负载，您只需要填写集群最大最小Task节点数，集群将自动按负载调整Task节点的数量，实现...

ECS应用角色

集群中实例上的应用程序进程在调用其他阿里云服务时，将使用ECS应用角色进行权限验证。在创建集群时既可以使用默认ECS应用角色，也可以使用自定义的角色。注意事项集群创建后，ECS应用角色不可更改。默认ECS应用角色在创建集群时，如果...

Hadoop DistCp介绍

Hadoop DistCp和Jindo DistCp的区别 DistCp类型功能使用场景 Hadoop DistCp 开源Hadoop内置的DistCp工具，用于大型集群间或集群内数据的复制。HDFS到HDFS间的数据复制。Jindo DistCp JindoFS的数据迁移工具，支持OSS、OSS-HDFS服务、兼容...

参数说明

本文介绍Hadoop代码中的参数。Hadoop代码中可使用如下参数配置。属性名默认值说明 fs.jfs.cache.oss-accessKeyId 无访问OSS所需的AccessKey ID（可选）。fs.jfs.cache.oss-accessKeySecret 无访问OSS所需的AccessKey Secret（可选）。...

资源中心

当您在调度过程中需要使用第三方的JAR或者需要自定义脚本时，可以在文件管理页面进行相关操作。本文为您介绍如何创建文件和上传文件。...创建文件进入资源中心页面。...在左侧导航栏，选择 EMR Workbench Workflow。在Workflow页面，单击目标...

SmartData 3.1.x版本简介

功能变更 JindoFS存储优化 JindoFS缓存优化 JindoTable计算优化 JindoManager系统管理 JindoTools工具集 JindoFS生态支持 JindoFS存储优化支持文件的checksum功能，对齐开源HDFS checksum相关接口，支持MD5MD5CRC和COMPOSITE_CRC两种算法...

REMOTESHELL

脚本您自定义的Shell程序。资源选择任务执行时所需的资源文件，请确保您已在资源中心的文件管理页面，创建或者上传了相应的文件。选择所需文件后，您可以在任务脚本中通过完整路径引用它们。例如，path/to/test.txt。自定义参数任务...

2025-01-20版本

通过Kyuubi Gateway，以兼容开源Kyuubi的方式提交SQL任务。数据目录支持使用RAM用户（子账号）身份访问DLF。支持访问DLF 2.0 Hive Catalog。资源观测支持观测工作空间、队列的资源消耗情况。运行环境 Spark Submit工具支持通过配置参数-...

基本概念

本文介绍开源大数据平台E-MapReduce使用过程中遇到的常用名词的基本概念和简要描述。集群 E-MapReduce产品中的一个独立的机器组合，为上层业务提供一些基础的引擎服务。一个E-MapReduce集群是由一个或多个阿里云ECS实例组成的。ECS实例在E...

常见问题

在仅部分worker节点安装了依赖环境的集群中执行PySpark，按照以下步骤进行操作：使用SPARK任务类型，程序类型选择 CUSTOM_SCRIPT，开启提交到Yarn执行开关，并且填写完整的spark-submit命令。使用Yarn Node Labels特性，将Spark作业调度...

EMR Spark功能增强

阿里云E-MapReduce产品构建于阿里云云服务器ECS上，基于开源的Apache Hadoop和Apache Spark，做了大量优化。本文为您介绍E-MapReduce（简称EMR）Spark相对开源增强的功能。背景信息阿里云EMR 100%采用社区开源组件，随开源版本升级迭代，...

管理权限

ECS应用角色使得在EMR集群上运行的应用程序能够与其他云服务进行交互。如果您想了解ECS应用角色的权限策略，请参见 ECS应用角色（EMR 3.32之后、EMR 4.5之后版本以及EMR 5.x系列版本）。如果您想自定义ECS应用角色，请参见使用自定义ECS...

SmartData 3.2.x版本简介

JindoFS缓存优化优化在AI训练场景下小文件元数据的缓存，提升元数据预加载操作和List操作的性能。JindoTable计算优化 JindoTable集成了AliORC，提供Native ORC Reader。JindoTable支持Spark和Presto使用Native ORC Reader读取ORC文件，以...

Serverless Spark使用Python三方库

如何在Serverless Spark环境中使用Python三方库适用客户全网用户新增功能/规格 PySpark作业往往需要借助Python第三方库来增强数据处理和分析能力。本文档详细介绍了如何利用Conda和PEX这两种...产品文档在PySpark程序中使用Python三方库

EMR on ACK商业化公告

您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注大数据任务本身。收费标准阿里云EMR on ACK正式商业化后，将根据集群...

开源大数据平台E-MapReduce系统权限策略参考

本文描述开源大数据平台 E-MapReduce支持的所有系统权限策略及其对应的权限描述，供您授权RAM身份时参考。什么是系统权限策略权限策略是用语法结构描述的一组权限的集合，可以精确地描述被授权的资源集、操作集以及授权条件。阿里云访问...

E-MapReduce Serverless StarRocks服务等级协议（SLA...

2023年6月1日起，E-MapReduce Serverless StarRocks服务等级协议（SLA）生效。详情请参见开源大数据平台E-MapReduce Serverless服务等级协议。

升级小版本

在阿里云Serverless StarRocks中，版本更新分为小版本和大版本。小版本是指StarRocks的更新版本（2.x或3.x系列内的版本升级），包括性能提升、新功能或问题修复等，旨在提供更稳定和可靠的服务。EMR Serverless StarRocks采用滚动升级的...

JindoFS外部客户端

设置环境变量 BIGBOOT_HOME 为程序安装根目录，将程序根目录下 ext 和 lib 的路径，添加到用户使用的大数据组件（Hadoop或Spark等）的 Classpath 中。从E-MapReduce集群内部拷贝配置文件/usr/lib/bigboot-current/conf/bigboot.cfg....

Impala

背景信息 Impala使用与Apache Hive相同的元数据、SQL语法（Hive SQL）和ODBC驱动程序等，为面向批处理或实时查询提供了一个熟悉且统一的平台。注意事项如果使用Impala组件，请勿直接通过系统文件删除hive表分区目录，请使用Impala或者Hive...

快速使用EMR Workflow

EMR Workflow是一个全托管的工作流和任务调度服务，100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务，您可以通过可视化的操作界面轻松地管理工作流和任务，高效构建数据仓库，并为生产任务的稳定运行提供保障。本文以...

管理SQL会话

spark.driver.cores 用于指定Spark应用程序中Driver进程所使用的CPU核心数量。默认值为1 CPU。spark.driver.memory 用于指定Spark应用程序中Driver进程可以使用的内存量。默认值为3.5 GB。spark.executor.cores 用于指定每个Executor进程...

ZooKeeper指标

本文介绍ZooKeeper指标的详细信息。ZooKeeper指标包含以下部分：Important metrics zk count info Important metrics 参数指标描述 AvgLatency zk_avg_latency。Zookeeper平均请求延迟。单位：ms。MaxLatency zk_max_latency Zookeeper...

技术支持的范围和方式

关于阿里云EMR Serverless Spark产品和服务的相关问题，您可以通过以下渠道寻求支持和解决。...填写相关问题信息，产品分类选择开源大数据平台 E-MapReduce。单击提交。售后服务SLA 售后服务SLA详情，请参见企业支持计划的内容。

SmartData 3.5.x版本简介

SmartData组件是EMR Jindo引擎的存储部分，为EMR各个计算引擎提供统一的存储、缓存、计算优化以及功能扩展。SmartData组件主要包括JindoFS、JindoTable和相关工具集。本文介绍SmartData（3.5.x）版本的更新内容。JindoFS OSS扩展和支持 ...

JindoSDK下载安装和升级

JindoSDK提供了丰富的API和功能，简化了在应用程序中集成和使用这些数据服务的过程。JindoSDK 查询版本如：jindosdk-6.5.6-linux ls-l/opt/apps/JINDOSDK 版本说明不同版本的功能可能存在差异，请选择适合的版本进行使用。详情请参见 ...

内置函数

内置函数清单 Serverless Spark 兼容开源内置函数的使用，开源具体函数说明请参见 Spark SQL Functions。此外，Serverless Spark 还支持多个特有内置函数，以下是特有支持的内置函数及其相关说明。函数说明 PARQUET_SCHEMA 获取Parquet...