开源机器学习-开源机器学习文档介绍内容-移动阿里云

配置hosts

通常情况下，只需要配置emr-master节点组所在机器的内网IP地址和hostname，即可访问EMR on ECS集群的Hive数据。说明内网IP地址：旧版控制台，您可以在集群管理中的主机列表页面查看。新版控制台，您可以在集群的节点管理页面查看。...

Impala

背景信息 Impala使用与Apache Hive相同的元数据、SQL语法（Hive SQL）和ODBC驱动程序等，为面向批处理或实时查询提供了一个熟悉且统一的平台。注意事项如果使用Impala组件，请勿直接通过系统文件删除hive表分区目录，请使用Impala或者Hive...

配置钉钉机器人接收Kubeflow报警

设置钉钉机器人报警后，您可以通过指定钉钉群接收报警通知。本文为您介绍如何配置钉钉机器人接收Kubeflow报警。前提条件已创建DataScience集群，且选择了Kubeflow服务，详情请参见创建集群。下载dsdemo代码：请已创建DataScience集群的...

Hadoop DistCp介绍

Hadoop DistCp和Jindo DistCp的区别 DistCp类型功能使用场景 Hadoop DistCp 开源Hadoop内置的DistCp工具，用于大型集群间或集群内数据的复制。HDFS到HDFS间的数据复制。Jindo DistCp JindoFS的数据迁移工具，支持OSS、OSS-HDFS服务、兼容...

授权信息

本文为您介绍开源大数据平台 E-MapReduce 为 RAM 权限策略定义的操作（Action）、资源（Resource）和条件（Condition）。开源大数据平台 E-MapReduce 的 RAM 代码（RamCode）为 starrocks,sr，支持的授权粒度为操作级。权限策略通用结构 ...

什么是EMR on ACK

阿里云E-MapReduce（简称EMR）on ACK提供了全新构建大数据平台的方式。您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注...

扩容ClickHouse集群

注意事项扩容的机器数必须是分区或副本的倍数。集群扩容，仅支持表结构迁移，不支持数据迁移。default数据库下的表结构不支持迁移。分片扩容是直接在原有的集群上增加节点，并在新增节点上创建分布式表和本地表，扩容后新写入的数据按照...

2025-01-20版本

通过Kyuubi Gateway，以兼容开源Kyuubi的方式提交SQL任务。数据目录支持使用RAM用户（子账号）身份访问DLF。支持访问DLF 2.0 Hive Catalog。资源观测支持观测工作空间、队列的资源消耗情况。运行环境 Spark Submit工具支持通过配置参数-...

作业提交

缺点：学习成本：需熟悉DataWorks开发规范。成本增加：需要额外支付DataWorks产品的使用费用。周期性ETL任务管理。需要进行复杂依赖管理的DAG工作流。通过集群Master节点提交作业优点：操作便捷：无需额外配置客户端环境，可以直接使用...

开源大数据平台 E-MapReduce系统权限策略参考

本文描述开源大数据平台E-MapReduce支持的所有系统权限策略及其对应的权限描述，供您授权RAM身份时参考。什么是系统权限策略权限策略是用语法结构描述的一组权限的集合，可以精确地描述被授权的资源集、操作集以及授权条件。阿里云访问...

JournalNode出现异常

问题原因一般由于断电类机器异常或者磁盘写满，导致JournalNode写入发生异常。解决方案检查NameNode是否可以正常工作：如果NameNode可以正常工作，建议按照如下步骤修复JournalNode：对NameNode触发手动checkpoint，参见手动进行...

EMR on ACK商业化公告

阿里云EMR on ACK提供了一种全新的构建大数据平台的方式。您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注大数据任务...

Kafka Manager

操作步骤使用SSH隧道方式访问Web页面，详情请参见通过SSH隧道方式访问开源组件Web UI。说明建议您首次使用Kafka Manager时修改默认密码。为了防止8085端口暴露，建议使用SSH隧道方式来访问Web界面。如果使用 http://localhost:8085 方式...

Alluxio（仅对存量用户开放）

Alluxio是一个面向基于云的数据分析和人工智能的开源的数据编排技术。Alluxio为数据驱动型应用和存储系统构建了桥梁，将数据从存储层移动到距离数据驱动型应用更近的位置，从而能够更容易被访问，同时使得应用程序能够通过一个公共接口连接...

使用限制

参数值参数名称默认值适用版本影响说明 replication_num 副本个数 3 存算一体如果将副本数量调整为1或2，则可能会存在数据丢失的风险，且可能导致计算倾斜等问题，进而引发机器宕机等故障。enable_persistent_index 是否开启主键索引...

E-MapReduce Serverless StarRocks服务等级协议（SLA...

2023年6月1日起，E-MapReduce Serverless StarRocks服务等级协议（SLA）生效。详情请参见开源大数据平台E-MapReduce Serverless服务等级协议。

常用参数调优

hdfs.threadsPoolSize 默认值为10，HDFS IO线程数，根据机器配置调整。hdfs.useLocalTimeStamp 默认值为false。表示是否使用本地时间戳。如果需要在Event的Head中添加时间戳，设置该参数值为true。hdfs.rollInterval 默认值为30，单位为秒...

EMR Serverless StarRocks计费调整通知

包年包月计费项规格调整前费用（元）调整后费用（元）调整幅度说明华北3（张家口）107.2 157 46.46%将使用更高配置的机型，机器成本和性能均得到提升。新加坡 249 201-19.28%因成本降低，性能不受影响。中国香港 271.35 221-18.56%因...

技术支持的范围和方式

关于阿里云EMR Serverless Spark产品和服务的相关问题，您可以通过以下渠道寻求支持和解决。...填写相关问题信息，产品分类选择开源大数据平台 E-MapReduce。单击提交。售后服务SLA 售后服务SLA详情，请参见企业支持计划的内容。

授权信息

本文为您介绍开源大数据平台 E-MapReduce 为 RAM 权限策略定义的操作（Action）、资源（Resource）和条件（Condition）。开源大数据平台 E-MapReduce 的 RAM 代码（RamCode）为 emr-serverless-spark，支持的授权粒度为操作级。权限策略...

内置函数

内置函数清单 Serverless Spark 兼容开源内置函数的使用，开源具体函数说明请参见 Spark SQL Functions。此外，Serverless Spark 还支持多个特有内置函数，以下是特有支持的内置函数及其相关说明。函数说明 PARQUET_SCHEMA 获取Parquet...

管理日志

E-Mapreduce（简称EMR）开源组件运行过程中会产生大量的日志。日志管理功能将EMR与日志服务SLS相结合，允许您在EMR控制台直接查询开源组件的日志。前提条件已在EMR控制台上创建集群，具体操作请参见创建集群。已开通日志服务。使用限制 ...

OpenLDAP 用户管理

EMR用户可以用于访问链接与端口，查看开源组件Web UI时的用户身份认证，也可以在开启组件LDAP认证之后进行身份认证。如果将Ranger的用户源设置为LDAP，则可以对用户管理中的用户进行权限控制。如果是高安全集群，EMR用户可以用于Kinit操作...

HDFS Web UI介绍

访问HDFS Web UI 您可以通过SSH隧道和控制台两种方式访问HDFS Web UI，具体操作请参见通过SSH隧道方式访问开源组件Web UI 和访问链接与端口。NameNode服务地址版本访问地址说明 hadoop 3.x http://${namenode_hostname}:9870${...

EMR Serverless Spark商业化公告

产品优势如下：云原生极速计算引擎内置Fusion Engine(Spark Native Engine)，相对开源版本性能提升300%。内置Celeborn（Remote Shuffle Service），支持PB级Shuffle数据，计算资源总成本最高下降30%。开放化的数据湖架构支持计算存储分离...

OSS/OSS-HDFS

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括 JindoFS 存储系统（原JindoFS Block模式）...

EMR Serverless StarRocks商业化发布

EMR Serverless StarRocks介绍 EMR Serverless StarRocks是开源StarRocks在阿里云上的全托管服务，您可以通过其灵活地创建和管理实例以及数据。本文为您介绍StarRocks的核心特性，并详述EMR Serverless StarRocks在此基础之上所引入的诸多...

扩容集群

EMR Serverless StarRocks不仅无缝兼容开源StarRocks，并且具备自动升级软件版本的功能，可省去手动管理版本的繁琐与风险。迁移方案详情，请参见迁移StarRocks数据至EMR Serverless StarRocks。操作步骤重要集群扩容操作不会重启存量...

授权信息

本文为您介绍开源大数据平台 E-MapReduce 为 RAM 权限策略定义的操作（Action）、资源（Resource）和条件（Condition）。开源大数据平台 E-MapReduce 的 RAM 代码（RamCode）为 emr，支持的授权粒度为资源级。权限策略通用结构权限策略...

EMR Workflow商业化公告

EMR Workflow介绍 EMR Workflow是一个全托管的工作流和任务调度服务，100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务，您可以通过可视化的操作界面轻松地管理工作流和任务，高效构建数据仓库，并为生产任务的稳定运行...

集群缩容

HostGroupId String 是 G-EF460256A55F*机器组ID。您可以调用 ListClusterHostGroup 查看机器组ID。RegionId String 是 cn-hangzhou 地域ID。您可以调用 DescribeRegions 查看最新的阿里云地域列表。InstanceIdList String 否["i-bp1bm7y86...

管理LDAP认证

EMR-5.11.0及之前版本，EMR-3.45.0及之前版本重要如果您的EMR版本较低，没有相应的LDAP认证配置按钮，则需要参考开源软件的社区文档进行手动配置，以启用LDAP认证功能。在组件列表区域，选择 SparkThriftServer 操作列的 enableLDAP。...

创建伸缩组

HostGroupId String 是 G-AB1234567*机器组ID。您可以调用 ListClusterHostGroup 查看机器组ID。Name String 是 test 伸缩组名称。您可以自定义设置。RegionId String 是 cn-hangzhou 区域ID。您可以调用 DescribeRegions 接口查看最新的...

常见问题

对于单条没有JOIN的查询语句，您可以在Impala控制台通过命令设置mt_dop参数为n以提升并发度，其中n为每台机器的并发度。Ranger开启Impala后，新扩容的Impala节点无法正常工作，该怎么办？问题现象：EMR-5.6.0及之前的版本，在EMR控制台上...

CreateNodeGroup-创建节点组

C-E525E04F3914*NodeGroup NodeGroupConfig 是机器组信息。返回参数名称类型描述示例值 object 返回数据。NodeGroupId string 机器组 ID。G-21E39B11837E*RequestId string 请求 ID。9E3A7161-EB7B-172B-8D18-FFB06BA3*示例正常返回...

开源大数据平台E-MapReduce系统权限策略参考

本文描述开源大数据平台 E-MapReduce支持的所有系统权限策略及其对应的权限描述，供您授权RAM身份时参考。什么是系统权限策略权限策略是用语法结构描述的一组权限的集合，可以精确地描述被授权的资源集、操作集以及授权条件。阿里云访问...

克隆集群

不会克隆到新集群的信息：创建集群后，您手动在集群机器上修改的文件或内容，例如JAR包等，无法克隆到新集群。注意事项针对2022年09月07日之前创建的集群，如果处于创建失败、释放失败或已释放状态，因集群信息历史记录不完整，无法进行...

EMR元数据迁移公告

数据湖元数据DLF是阿里云提供的统一元数据服务，具有高可用、免运维和高性能等优点，兼容Hive Metastore，无缝对接EMR上开源计算引擎，并支持多版本管理和Data Profile功能。另外，DLF还支持数据探索、湖管理和数据权限控制等功能，并与...

Fusion引擎

Fusion引擎是EMR Serverless Spark内置的高性能向量化SQL执行引擎，相比开源Spark在TPC-DS基准测试上有3倍性能提升。Fusion引擎与开源Spark完全兼容，您无需对现有代码做任何修改。在EMR Serverless Spark中，只需在创建会话时开启使用...

创建Data Science集群

集群类型 Data Science：主要面向大数据+AI场景，提供Hive和Spark离线大数据ETL和TensorFlow模型训练，您可以选择CPU+GPU的异构计算框架，通过英伟达GPU对部分深度学习算法进行高性能计算。产品版本默认最新的软件版本。组件版本展示集群...