即时通讯服务端开源-即时通讯服务端开源文档介绍内容-移动阿里云

访问JindoFS Web UI

JindoFS提供了Web UI服务，您可以快速查看集群当前的状态。例如，当前的运行模式、命名空间、集群StorageService信息和启动状态等。前提条件通过SSH隧道方式才能访问Web UI，详情请参见通过SSH隧道方式访问开源组件Web UI。访问JindoFS ...

访问JindoFS Web UI

JindoFS提供了Web UI服务，您可以快速查看集群当前的状态。例如，当前的运行模式、命名空间、集群StorageService信息和启动状态等。前提条件通过SSH隧道方式才能访问Web UI，详情请参见通过SSH隧道方式访问开源组件Web UI。访问JindoFS ...

访问Web UI

单击部署客户端配置。在弹出的对话框中，输入执行原因，单击确定。在确认对话框中，单击确定。由于ACK控制台上访问链接与端口不可用，您可通过以下配置访问开源组件的Web UI。登录容器服务管理控制台。在集群列表页面，单击EMR ...

通过MySQL客户端方式连接StarRocks实例

使用开源MySQL客户端连接StarRocks 步骤一：下载MySQL客户端并安装数据库下载 MySQL客户端。执行以下命令，解压缩安装包。tar-zxvf mysql-5.6.40-linux-glibc2.12-i686.tar.gz 执行以下命令，复制解压后的mysql目录到系统的本地软件目录。...

SSH隧道访问开源组件Web界面

除了通过EMR控制台提供的链接地址访问开源组件Web界面外，还可通过SSH隧道方式进行安全访问。通过SSH隧道和SOCKS代理，您可在不暴露集群内部网络结构的情况下访问开源组件Web界面。说明开源组件Web界面访问方式选择，请参见查看开源组件 ...

产品简介

开源大数据开发平台E-MapReduce（简称EMR）是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

数据上云工具

MaxCompute平台支持丰富的数据上传和下载工具（其中大部分工具已经在GitHub公开源代码，以开源社区的方式进行维护）。您可以根据实际应用场景，选择合适的工具进行数据的上传和下载。阿里云数加产品 MaxCompute客户端（Tunnel通道系列）...

常见问题

DataFlow集群在配置文件中默认使用企业版状态后端（即GeminiStateBackend），您如果想针对单个作业使用开源的状态后端（例如rocksdb），可以通过-D指定，例如：flink run-application-t yarn-application-D state.backend=rocksdb/opt/apps...

SmartData（仅对存量用户开放）

SmartData组件包括：JindoFS核心子系统：为各种远端存储系统提供缓存和缓存加速，详情请参见 JindoFS介绍和使用。JindoTable核心子系统：为表格数据源（例如Hive数仓）提供表和分区级别的优化和治理，详情请参见 JindoTable使用说明。...

Hadoop DistCp介绍

开源DistCp会把要复制的Path列表存储在客户端内存，如果文件量超过一定阈值或者文件名较长，例如文件量达到一百万条，会出现Out of Memory异常，此时可通过以下命令在客户端设置更多内存。export HADOOP_CLIENT_OPTS="-Xmx1024m"hadoop ...

管理LDAP认证

EMR-5.11.0及之前版本，EMR-3.45.0及之前版本重要如果您的EMR版本较低，没有相应的LDAP认证配置按钮，则需要参考开源软件的社区文档进行手动配置，以启用LDAP认证功能。在组件列表区域，选择 SparkThriftServer 操作列的 enableLDAP。...

开源代码参考

本文介绍阿里云IDaaS在开发过程中所依赖或引用的开源组件、框架及工具，帮助开发者了解系统的技术背景、合规性要求及潜在的开源协议限制。适用场景企业应用需对接阿里云IDaaS实现身份认证、单点登录（SSO）或身份管理集成。开源代码库 ...

SmartData 3.1.x版本简介

JindoManager系统管理增加了JindoManager服务，集中负责Jindo系统的运维管理以及状态监控等附加功能，提供了Web UI服务，以及查看各项Jindo系统状态。JindoTools工具集 Jindo DistCp工具针对小文件优化了Job Commiter的逻辑，大幅减少OSS...

JindoFS介绍和使用

JindoFS是基于阿里云对象存储OSS，为开源大数据生态构建的Hadoop兼容文件系统（Hadoop Compatible File System，HCFS）。JindoFS提供兼容对象存储的纯客户端模式（SDK）和缓存模式（Cache），以支持与优化Hadoop和Spark生态大数据计算对OSS...

StarRocks

说明本文部分内容来源于开源StarRocks的什么是StarRocks。StarRocks特性 StarRocks的架构设计融合了MPP数据库，以及分布式系统的设计思想，其特性如下所示。架构精简 StarRocks内部通过MPP计算框架完成SQL的具体执行工作。MPP框架能够...

JindoData（仅对存量用户开放）

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括JindoFS存储系统（原JindoFS Block模式）、...

即时日志

即时日志是一种轻量级、易于使用的日志服务，允许您通过控制台页面实时查看函数和Pages 日志。通过即时日志数据，可以了解函数运行情况并对函数和Pages 进行对应的调整。使用限制同一个函数和Pages 单次最多只能有一个激活的监测窗口，...

版本生命周期策略

背景信息随着StarRocks开源社区的持续发展，StarRocks通过发布新版本为您提供更多优势特性，例如更快的性能、更好的安全性以及更多的功能等。同时，StarRocks的旧版本也将会随着技术演进逐步停止使用。如果您继续使用较低版本的StarRocks...

使用独立的Trino集群

背景信息在使用开源大数据平台E-MapReduce控制台时，您可以在创建DataLake集群、自定义集群或Hadoop集群时选择Trino服务，或者创建独立的Trino集群使用Trino服务。Trino集群具备以下特点：Trino独享集群资源，受其他组件干扰少。支持弹性...

产品形态选型

EMR on ACK EMR on ACK 是一种将开源大数据服务部署在阿里云容器服务 Kubernetes 版（ACK）之上的架构。用户需首先准备好 ACK 集群，随后通过 EMR 在 ACK 的资源上安装并运行大数据服务。主要特点共享 Kubernetes 集群资源：可将 Spark、...

EMR on ACK商业化公告

您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注大数据任务本身。收费标准阿里云EMR on ACK正式商业化后，将根据集群...

什么是EMR on ACK

您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注大数据任务本身。前置概念阅读本文前，您可能需要了解如下概念：什么...

产品架构

FE FE负责管理元数据、管理客户端连接、查询规划和调度等工作，并在每个节点的内存中保存一份完整的元数据副本，以确保服务的一致性。角色元数据读写 Leader选举说明 Leader 读写自动选举 Leader FE在对元数据进行读写操作后，通过BDB ...

Iceberg

您可以借助Iceberg快速地在HDFS或者阿里云OSS上构建自己的数据湖存储服务，并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。核心能力 Apache Iceberg设计初衷是为了解决Hive数仓上云的问题，经过多年迭代...

Kudu

Tserver服务负责为客户端储存和提供Tablets，仅Leader Tablet可以写入请求，其他的Tablet只能执行请求。列式存储 Kudu是一种列数据储存结构，同一列的数据被存储在底层存储的相邻位置。表（Table）数据存储在Kudu的位置。Table有Schema和...

Workflow商业化发布

EMR Workflow是一个全托管的工作流和任务调度服务，100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务，您可以通过可视化的操作界面轻松地管理工作流和任务，高效构建数据仓库，并为生产任务的稳定运行提供保障。产品文档 ...

概述

Spark on MaxCompute是MaxCompute提供的兼容开源Spark的计算服务。它在统一的计算资源和数据集权限体系之上，提供Spark计算框架，支持您以熟悉的开发使用方式提交运行Spark作业，满足更丰富的数据处理分析需求。使用限制 Spark on ...

什么是EMR Workflow

EMR Workflow是一个全托管的工作流和任务调度服务，100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务，您可以通过可视化的操作界面轻松地管理工作流和任务，高效构建数据湖仓，并为生产任务的稳定运行提供保障。产品优势 ...

技术支持的范围和方式

阿里云E-MapReduce（简称EMR）是云原生开源大数据平台，能够为用户提供简单易集成的开源大数据解决方案。EMR on ECS集群主要构建于ECS之上，集群资源归属于用户，EMR提供基于该资源的半托管云服务能力，用户对集群拥有完全的管理操作权限，...

EMR Workflow商业化公告

EMR Workflow介绍 EMR Workflow是一个全托管的工作流和任务调度服务，100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务，您可以通过可视化的操作界面轻松地管理工作流和任务，高效构建数据仓库，并为生产任务的稳定运行...

通过VPC对等连接实现跨VPC访问全托管StarRocks集群

方案架构本方案通过创建VPC对等连接，将部署应用服务的VPC（发起端）与部署全托管StarRocks集群的VPC（接收端）连接起来。再通过配置双向路由和安全策略，最终实现应用服务对StarRocks集群FE服务的内网访问。为便于理解，本文将涉及的两个...

EMR旧版数据开发迁移公告

EMR Workflow是一个全托管的工作流和任务调度服务，100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务，您可以通过可视化的操作界面轻松地管理工作流和任务，高效构建数据仓库，并为生产任务的稳定运行提供保障。EMR ...

通过公网访问Kafka

本文为您介绍如何配置阿里云E-MapReduce集群中的Kafka服务，包括修改相关配置以监听公网接口以及设置对应的安全组规则，从而使得客户端能够在公网环境下顺利访问该集群上的Kafka服务。新建集群时，开通公网服务新建Dataflow集群时，打开...

选择元数据服务

元数据服务选型对比维度 DLF统一元数据自建RDS 内置MySQL 后端存储阿里云DLF服务云数据库RDS MySQL实例（需购买RDS并配置网络环境）集群内MySQL实例适用环境测试环境、生产环境测试环境、生产环境单集群POC测试说明不推荐使用，...

使用RocksDB作为元数据后端

JindoFS元数据服务支持不同的存储后端，默认配置RocksDB为元数据存储后端。本文介绍使用RocksDB作为元数据后端时需要进行的相关配置。背景信息 RocksDB作为元数据后端时不支持高可用。如果需要高可用，推荐配置Tablestore（OTS）或者Raft...

使用RocksDB作为元数据后端

JindoFS元数据服务支持不同的存储后端，默认配置RocksDB为元数据存储后端。本文介绍使用RocksDB作为元数据后端时需要进行的相关配置。背景信息 RocksDB作为元数据后端时不支持高可用。如果需要高可用，推荐配置Tablestore（OTS）或者Raft...

ClickHouse

开源大数据平台E-MapReduce（简称EMR）的ClickHouse提供了开源OLAP分析引擎ClickHouse的云上托管服务。EMR ClickHouse完全兼容开源版本的产品特性，同时提供集群快速部署、集群管理、扩容、缩容和监控告警等云上产品功能，并且在开源的基础...

OSS/OSS-HDFS

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括 JindoFS 存储系统（原JindoFS Block模式）...

使用Tablestore作为存储后端

JindoFS元数据服务支持不同的存储后端，本文介绍使用Tablestore（OTS）作为元数据后端时需要进行的配置。前提条件已创建EMR集群。详情请参见创建集群。已创建Tablestore实例，推荐使用高性能实例。详情请参见创建实例。说明需要开启...

使用Tablestore作为存储后端

JindoFS元数据服务支持不同的存储后端，本文介绍使用Tablestore（OTS）作为元数据后端时需要进行的配置。前提条件已创建EMR集群。详情请参见创建集群。已创建Tablestore实例，推荐使用高性能实例。详情请参见开通服务并创建实例。说明 ...