淘客开源程序-淘客开源程序文档介绍内容-移动阿里云

授权信息

本文为您介绍开源大数据平台 E-MapReduce 为 RAM 权限策略定义的操作（Action）、资源（Resource）和条件（Condition）。开源大数据平台 E-MapReduce 的 RAM 代码（RamCode）为 emr-serverless-spark，支持的授权粒度为操作级。权限策略...

内置函数

内置函数清单 Serverless Spark 兼容开源内置函数的使用，开源具体函数说明请参见 Spark SQL Functions。此外，Serverless Spark 还支持多个特有内置函数，以下是特有支持的内置函数及其相关说明。函数说明 PARQUET_SCHEMA 获取Parquet...

FLINK

FLINK任务类型用于执行Flink程序。本文为您介绍创建FLINK类型任务时涉及的参数，并提供了FLINK任务的示例。参数说明参数说明节点名称任务的名称。一个工作流定义中的节点名称是唯一的。运行标志正常（默认）：运行工作流时执行该任务...

管理日志

E-Mapreduce（简称EMR）开源组件运行过程中会产生大量的日志。日志管理功能将EMR与日志服务SLS相结合，允许您在EMR控制台直接查询开源组件的日志。前提条件已在EMR控制台上创建集群，具体操作请参见创建集群。已开通日志服务。使用限制 ...

OpenLDAP 用户管理

EMR用户可以用于访问链接与端口，查看开源组件Web UI时的用户身份认证，也可以在开启组件LDAP认证之后进行身份认证。如果将Ranger的用户源设置为LDAP，则可以对用户管理中的用户进行权限控制。如果是高安全集群，EMR用户可以用于Kinit操作...

HDFS Web UI介绍

访问HDFS Web UI 您可以通过SSH隧道和控制台两种方式访问HDFS Web UI，具体操作请参见通过SSH隧道方式访问开源组件Web UI 和访问链接与端口。NameNode服务地址版本访问地址说明 hadoop 3.x http://${namenode_hostname}:9870${...

EMR Serverless Spark商业化公告

产品优势如下：云原生极速计算引擎内置Fusion Engine(Spark Native Engine)，相对开源版本性能提升300%。内置Celeborn（Remote Shuffle Service），支持PB级Shuffle数据，计算资源总成本最高下降30%。开放化的数据湖架构支持计算存储分离...

日志配置说明

trace：程序执行路径跟踪信息。logger.size 日志文件的大小。当文件达到该参数设置的值时，ClickHouse会将其存档并重命名，并创建一个新的日志文件。默认值为 1000M。logger.count 存档的ClickHouse日志文件个数。当存档的日志文件个数达到...

JDBC Catalog

对于Serverless StarRocks实例，您需要将JDBC驱动程序JAR包上传到OSS上，并开放JAR包的公共读权限。详情请参见简单上传、设置Bucket ACL。然后将driver_url配置成包含对应内网Endpoint 的HTTP URL，例如：...

OSS/OSS-HDFS

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括 JindoFS 存储系统（原JindoFS Block模式）...

EMR Serverless StarRocks商业化发布

EMR Serverless StarRocks介绍 EMR Serverless StarRocks是开源StarRocks在阿里云上的全托管服务，您可以通过其灵活地创建和管理实例以及数据。本文为您介绍StarRocks的核心特性，并详述EMR Serverless StarRocks在此基础之上所引入的诸多...

扩容集群

EMR Serverless StarRocks不仅无缝兼容开源StarRocks，并且具备自动升级软件版本的功能，可省去手动管理版本的繁琐与风险。迁移方案详情，请参见迁移StarRocks数据至EMR Serverless StarRocks。操作步骤重要集群扩容操作不会重启存量...

授权信息

本文为您介绍开源大数据平台 E-MapReduce 为 RAM 权限策略定义的操作（Action）、资源（Resource）和条件（Condition）。开源大数据平台 E-MapReduce 的 RAM 代码（RamCode）为 emr，支持的授权粒度为资源级。权限策略通用结构权限策略...

EMR Workflow商业化公告

EMR Workflow介绍 EMR Workflow是一个全托管的工作流和任务调度服务，100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务，您可以通过可视化的操作界面轻松地管理工作流和任务，高效构建数据仓库，并为生产任务的稳定运行...

管理LDAP认证

EMR-5.11.0及之前版本，EMR-3.45.0及之前版本重要如果您的EMR版本较低，没有相应的LDAP认证配置按钮，则需要参考开源软件的社区文档进行手动配置，以启用LDAP认证功能。在组件列表区域，选择 SparkThriftServer 操作列的 enableLDAP。...

统一命名空间缓存加速

背景信息 JindoFSx存储加速系统提供统一命名空间挂载的功能，可以为应用程序提供统一的命名空间（jindo:/）。应用程序可以通过统一命名空间和接口来访问多个独立的存储系统，从而实现只连接JindoFSx就可与不同的底层存储系统进行通信。前提...

IMPALASHELL

选择资源中心文件：使用该程序类型，需要在资源中选择IMPALA SQL文件。选项参数配置和调优集群的一些参数设置。资源选择任务执行时所需的资源文件，请确保您已在资源中心的文件管理页面，创建或者上传了相应的文件。选择所需文件后，...

什么是EMR Serverless Spark

同时，它100%兼容开源Spark生态，能够无缝集成到客户现有的数据平台。通过使用EMR Serverless Spark，企业可以更加专注于数据处理分析及模型训练的优化，从而提升工作效率。前置概念阅读本文前，您可能需要了解如下概念：什么是云原生？...

开源大数据平台E-MapReduce系统权限策略参考

本文描述开源大数据平台 E-MapReduce支持的所有系统权限策略及其对应的权限描述，供您授权RAM身份时参考。什么是系统权限策略权限策略是用语法结构描述的一组权限的集合，可以精确地描述被授权的资源集、操作集以及授权条件。阿里云访问...

FUSE使用说明

本文介绍如何通过FUSE客户端访问JindoFS。FUSE支持Block和JFS Scheme的Cache两种模式。前提条件已创建集群，详情...umount jindofs-fuse 如果出现 target is busy 错误，请切换到其它目录，停止所有正在读写FUSE文件的程序，再执行卸载操作。

FUSE使用说明

本文介绍如何通过FUSE客户端访问JindoFS。FUSE支持Block和JFS Scheme的Cache两种模式。前提条件已创建集群，详情...umount jindofs-fuse 如果出现 target is busy 错误，请切换到其它目录，停止所有正在读写FUSE文件的程序，再执行卸载操作。

FUSE使用说明

本文介绍如何通过FUSE客户端访问JindoFS。FUSE支持Block和JFS Scheme的Cache两种模式。前提条件已创建集群，详情...umount jindofs-fuse 如果出现 target is busy 错误，请切换到其它目录，停止所有正在读写FUSE文件的程序，再执行卸载操作。

SPARK

程序类型重要如果选择程序类型为 PYTHON，则所选执行集群的所有worker节点都必须安装依赖环境。如果您需要在只有部分worker节点安装了依赖环境的集群中执行PySpark任务，详情请参见常见问题。支持 JAVA、SCALA、PYTHON、SQL 和 CUSTOM_...

FUSE使用说明

本文介绍如何通过FUSE客户端访问JindoFS。FUSE支持Block和JFS Scheme的Cache两种模式。前提条件已创建集群，详情...umount jindofs-fuse 如果出现 target is busy 错误，请切换到其它目录，停止所有正在读写FUSE文件的程序，再执行卸载操作。

DataX

DataX任务类型，用于执行DataX程序。本文为您介绍创建DataX类型任务时涉及的参数。参数说明参数说明节点名称任务的名称。一个工作流定义中的节点名称是唯一的。运行标志正常（默认）：运行工作流时执行该任务。禁止执行：运行工作流...

FUSE使用说明

本文介绍如何通过FUSE客户端访问JindoFS。FUSE支持Block和JFS Scheme的Cache两种模式。前提条件已创建集群，详情...umount jindofs-fuse 如果出现 target is busy 错误，请切换到其它目录，停止所有正在读写FUSE文件的程序，再执行卸载操作。

FUSE使用说明

本文介绍如何通过FUSE客户端访问JindoFS。FUSE支持Block和JFS Scheme的Cache两种模式。前提条件已创建集群，详情...umount jindofs-fuse 如果出现 target is busy 错误，请切换到其它目录，停止所有正在读写FUSE文件的程序，再执行卸载操作。

FUSE使用说明

本文介绍如何通过FUSE客户端访问JindoFS。FUSE支持Block和JFS Scheme的Cache两种模式。前提条件已创建集群，详情...umount jindofs-fuse 如果出现 target is busy 错误，请切换到其它目录，停止所有正在读写FUSE文件的程序，再执行卸载操作。

FUSE使用说明

本文介绍如何通过FUSE客户端访问JindoFS。FUSE支持Block和JFS Scheme的Cache两种模式。前提条件已创建集群，详情...umount jindofs-fuse 如果出现 target is busy 错误，请切换到其它目录，停止所有正在读写FUSE文件的程序，再执行卸载操作。

EMR元数据迁移公告

数据湖元数据DLF是阿里云提供的统一元数据服务，具有高可用、免运维和高性能等优点，兼容Hive Metastore，无缝对接EMR上开源计算引擎，并支持多版本管理和Data Profile功能。另外，DLF还支持数据探索、湖管理和数据权限控制等功能，并与...

HIVECLI

选择资源中心文件：使用该程序类型，需要在资源中选择Hive SQL文件。资源选择任务执行时所需的资源文件，请确保您已在资源中心的文件管理页面，创建或者上传了相应的文件。选择所需文件后，您可以在任务脚本中通过完整路径引用它们。...

Fusion引擎

Fusion引擎是EMR Serverless Spark内置的高性能向量化SQL执行引擎，相比开源Spark在TPC-DS基准测试上有3倍性能提升。Fusion引擎与开源Spark完全兼容，您无需对现有代码做任何修改。在EMR Serverless Spark中，只需在创建会话时开启使用...

EMR Spark功能增强

阿里云E-MapReduce产品构建于阿里云云服务器ECS上，基于开源的Apache Hadoop和Apache Spark，做了大量优化。本文为您介绍E-MapReduce（简称EMR）Spark相对开源增强的功能。背景信息阿里云EMR 100%采用社区开源组件，随开源版本升级迭代，...

使用Delta Lake

Delta Lake是一个开源存储框架，旨在数据湖之上构建LakeHouse架构。Delta Lake提供了ACID事务支持、可扩展的元数据处理功能，并能够在现有的数据湖（如OSS、Amazon S3和HDFS）上整合流处理与批处理。此外，Delta Lake还支持多种引擎，如...

JindoFS FUSE使用说明

本文介绍如何通过FUSE客户端访问JindoFS。FUSE支持Block和JFS Scheme的Cache两种模式。前提条件已创建集群，详情...umount jindofs-fuse 如果出现 target is busy 错误，请切换到其它目录，停止所有正在读写FUSE文件的程序，再执行卸载操作。

SmartData（仅对存量用户开放）

JindoSDK：为EMR各种开源计算引擎提供统一的SDK，支持Java、C、C++和Python语言，提供多种访问和API接口，包括HCFS文件系统接口、POSIX接口和Table表格接口。工具集：提供相关的工具集，例如Jindo tool和迁移工具Jindo DistCp。各种...

E-MapReduce支持倚天云服务器

阿里云E-MapReduce（简称EMR）支持使用倚天云服务器构建开源大数据集群。与现有X86架构实例体验完全相同的情况下，具有更高的性价比，帮助您降低成本并提高效率。本文为您介绍倚天云服务器的特性、优势，以及在E-Mapreduce上倚天云服务器的...

Spark Submit开发快速入门

已提前完成业务应用程序开发，并构建好JAR包。操作步骤步骤一：开发JAR包本快速入门旨在带您快速熟悉Spark Submit任务，为您提供了工程文件以及测试JAR包，您可以直接下载以备后续步骤使用。单击 spark-examples_2.12-3.3.1.jar，直接...

EMR旧版数据开发迁移公告

EMR Workflow是一个全托管的工作流和任务调度服务，100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务，您可以通过可视化的操作界面轻松地管理工作流和任务，高效构建数据仓库，并为生产任务的稳定运行提供保障。EMR ...

生命周期策略

本文为您介绍开源大数据开发平台E-MapReduce（简称EMR)的产品生命周期策略及产品终止策略（包含产品粒度与发行版本粒度），以便您知晓详细规则，提早做好相应准备。背景信息产品的更新换代是基础技术软件领域的常态。在开源大数据社区蓬勃...