前端报表开源工具-前端报表开源工具文档介绍内容-移动阿里云

JindoFS块存储模式

应用场景 E-MapReduce目前提供了三种大数据存储系统，E-MapReduce OssFileSystem、E-MapReduce HDFS和E-MapReduce JindoFS，其中OssFileSystem和JindoFS都是云上存储的解决方案，下表为这三种存储系统和开源OSS各自的特点。特点开源OSS E-...

EMR数据开发停止更新公告

2022年2月21日21点起，E-MapReduce（简称EMR）数据开发功能停止更新，进入维护状态，会影响创建项目、新建和运行作业、工作流、数据开发运维等功能。如果您还在使用数据开发功能，请尽快迁移到DataWorks构建数据开发平台。本文为您介绍数据...

JindoSDK下载安装和升级

背景说明阿里云JindoSDK是一种开发工具包，旨在帮助开发者更方便地与阿里云的 Jindo 系列产品（如 JindoCache 和 JindoData）进行交互。JindoSDK提供了丰富的API和功能，简化了在应用程序中集成和使用这些数据服务的过程。JindoSDK 查询...

产品架构

基于以上产品能力，您可以更加高效地聚焦于自己的业务应用，例如运营分析、用户画像、自助报表、订单分析以及用户报表生成等方面。StarRocks系统架构 StarRocks架构的核心只有FE（Frontend）、BE（Backend）或CN（Compute Node）节点，方便...

登录集群

您可以通过SSH方式或者Workbench等其他连接...相关文档为了确保集群安全，Hadoop、Spark和Flink等开源组件的Web UI的端口均未对外开放，您可以通过以下方式访问开源组件的Web界面：SSH隧道访问开源组件Web界面通过控制台访问开源组件Web界面

开源大数据平台 E-MapReduce

开源大数据平台E-MapReduce（Elastic MapReduce）是运行在阿里云平台上的一种大数据处理的系统解决方案。

BI工具集成

本章节展示如何将BI工具与大数据平台集成，构建高效的数据可视化解决方案。使用Power BI连接EMR Serverless Spark并进行数据可视化

查看开源组件 Web 界面

在EMR集群中，为了确保集群安全，Hadoop、Spark和Flink等开源组件的Web界面端口均未对外开放。如果您想直接访问开源组件的Web界面，可根据实际场景选择原生UI地址、Knox代理地址、SSH本地端口转发或 SSH动态端口转发方式进行访问。快速...

基础工具与操作

本章节提供基础工具的操作指南，帮助用户高效完成数据存储、管理和运维相关任务。在Notebook中使用Hadoop命令操作OSS/OSS-HDFS

Flink版本调整公告

为了更好地融入开源生态，提供更加开放和多样化的计算服务，阿里云E-MapReduce（简称EMR）从EMR-5.17.0和EMR-3.51.0版本开始，将Flink引擎版本从Flink企业版Ververica Runtime（简称VVR）调整为Flink社区开源版本，同时引入RocksDB作为存储...

产品简介

开源大数据开发平台E-MapReduce（简称EMR）是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

常用工具参考

工具简介命令行工具ossutil 2.0（预览版）ossutil是OSS的新版命令行管理工具，方便您高效使用OSS。更多信息，请参见命令行工具ossutil 2.0（预览版）。阿里云CLI 阿里云CLI（Command Line Interface）是一种命令行工具，允许用户在终端...

EMR Studio（已不支持新购）

EMR Studio是E-MapReduce提供的开源大数据开发套件，包含Apache Zeppelin、Jupyter Notebook和Apache Airflow等开源组件。能够无缝关联EMR集群（EMR on ECS和EMR on ACK）的计算引擎提交任务，并提供了交互式开发、任务调度和任务监控等...

JindoCache

大数据分析（Hive/Spark 报表）：减少报表生成时间，优化计算集群成本。湖仓一体：减少请求费用，优化数据目录（catalog）的响应延迟。AI：加速训练等场景，降低AI集群使用成本，提供更全面的能力支持。缓存策略 JindoCache支持数据缓存...

基础使用

本文为您介绍如何连接...执行以下命令，使用命令行工具 zkCli.sh 连接ZooKeeper。zkCli.sh-server master-1-1:2181 连接成功后，即可输入 help 显示所有命令。相关文档关于ZooKeeper的更多介绍，请参见 ZooKeeper Getting Started Guide。

EMR与自建Hadoop集群对比优势

与自建Hadoop集群相比，开源大数据开发平台EMR提供弹性资源管理和自动化运维，降低运维复杂度，通过用户管理、数据加密和权限管理等为数据安全保驾护航，同时EMR集成了丰富的开源组件并打通开源生态与阿里云生态，便于快速搭建大数据处理和...

会话管理

Spark Thrift Server会话：Spark Thrift Server是Apache Spark提供的一种服务，支持通过JDBC或ODBC连接并执行SQL查询，从而便捷地将Spark环境与现有的商业智能（BI）工具、数据可视化工具及其他数据分析工具集成。相关文档管理SQL会话 ...

实践教程

即席查询数仓场景：增量数据实时统计数仓场景：分钟级准实时分析 EMR Serverless Spark 通过Serverless Spark提交PySpark流任务通过spark-submit命令行工具提交Spark任务通过Apache Airflow使用Livy Operator提交任务通过Apache ...

Zeppelin常见问题

EMR Studio上的Zeppelin与开源版本一致吗？如何设置Zeppelin Note的权限？Zeppelin执行时无法正常启动Interpreter EMR Studio上的Zeppelin与开源版本一致吗？EMR Studio上的Zeppelin是增强版的Zeppelin，与开源版本不一致。E-MapReduce的...

支持倚天云服务器

阿里云E-MapReduce支持使用倚天云服务器构建开源大数据集群。适用客户全网用户新增功能/规格阿里云E-MapReduce（简称EMR）支持使用倚天云服务器构建开源大数据集群。与现有X86架构实例体验完全相同的情况下，具有更高的性价比，帮助用户...

Shell

与开源Zeppelin相比，E-MapReduce（简称EMR）数据开发集群中的Shell解释器支持在不同EMR集群环境里切换。本文通过示例为您介绍如何在Zeppelin中使用Shell。使用示例运行hadoop命令执行如下命令会显示当前EMR集群根目录下的所有文件，切换...

Iceberg

您可以借助Iceberg快速地在HDFS或者阿里云OSS上构建自己的数据湖存储服务，并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。核心能力 Apache Iceberg设计初衷是为了解决Hive数仓上云的问题，经过多年迭代...

E-MapReduce Doctor

E-MapReduce Doctor（简称EMR Doctor）是E-MapReduce产品自研的面向开源大数据集群的智能运维诊断系统。通过EMR Doctor（即监控诊断页面的“健康诊断”和“集群日报”功能）可以全局了解集群的健康状况和动态走势，为运维决策和资源优化...

SSH隧道访问开源组件Web界面

除了通过EMR控制台提供的链接地址访问开源组件Web界面外，还可通过SSH隧道方式进行安全访问。通过SSH隧道和SOCKS代理，您可在不暴露集群内部网络结构的情况下访问开源组件Web界面。说明开源组件Web界面访问方式选择，请参见查看开源组件 ...

SQL与函数参考

EMR Serverless StarRocks兼容开源StarRocks的SQL语法和函数，您可以参考以下文档进行开发设计。StarRocks版本参考文档 3.3系列 SQL参考函数参考 3.2系列 SQL参考函数参考 2.5系列 SQL参考函数参考

查看账单

在账单详情页签中，设置账单月份，并在列表中筛选产品为开源大数据平台 E-MapReduce，然后基于您的实际需求选择产品明细。您还可以通过统计项和统计周期选择账单的展示内容。账单详细内容，可参见费用与成本的账单管理。相关文档 ...

Paimon

目前阿里云开源大数据平台E-MapReduce常见的计算引擎（例如Flink、Spark、Hive或Trino）都与Paimon有着较为完善的集成度。您可以借助Apache Paimon快速地在HDFS或者云端OSS上构建自己的数据湖存储服务，并接入上述计算引擎实现数据湖的分析...

开源组件常用端口

本文为您介绍开源组件常用端口。服务端口描述 Hadoop 2.X 50070 HDFS Web UI的端口。配置参数为 dfs.namenode.http-address 或 dfs.http.address 。说明 dfs.http.address 已过期但仍能使用。50075 DataNode Web UI的端口。50010 ...

任务开发与调度

本章节介绍如何通过多种工具和框架提交和调度大数据任务，支持从交互式开发到自动化调度的全流程任务管理。通过DolphinScheduler提交Spark任务通过Serverless Spark提交PySpark流任务通过spark-submit提交任务通过Apache Airflow提交...

什么是EMR Workflow

提供与Apache DolphinScheduler兼容的接口和使用体验，支持开源DolphinScheduler和EMR旧版数据开发作业的一键迁移。产品功能 EMR Workflow具有如下功能：支持多种任务类型。例如 SHELL、SPARK、HIVECLI 等多种类型的任务调度。可视化的任务...

Spark

机器学习 Spark的MLlib提供了较丰富的机器学习库，包括分类、回归、协同过滤、聚合，同时提供了模型选择、自动调参和交叉验证等工具来提高生产力。MLlib主要支持非深度学习的算法模块，详情请参见 Machine Learning Library(MLlib)Guide。...

基本概念

FE（Frontend）FE是StarRocks的前端节点，负责管理元数据，管理客户端连接，进行查询规划，查询调度等工作。每个FE节点都会在内存保留一份完整的元数据，这样每个FE节点都能够提供无差别的服务。BE（Backend）BE是StarRocks的后端节点，...

Flink DataStream参考

DataFlow集群的Flink DataStream API完全兼容开源的Flink版本，关于Flink DataStream API的详细信息，请参见 Flink DataStream API Programming Guide。上下游存储（Connector）EMR-5.17.0&3.51.0及之后版本开源Flink的上下游存储，详情请...

常见问题

登录Ranger UI，详情请参见通过控制台访问开源组件Web界面。选择 Settings Users/Groups/Roles。在 Users 页签中，您可以查看是否有新创建的Unix用户。例如，在步骤1中创建了test用户。场景二：集群已部署OpenLDAP 如果集群中已部署...

Serverless Spark集成 Notebook

Notebook 促进了数据分析师和数据工程师之间的协作，支持快速原型设计和实验，是探索数据、开发机器学习模型以及进行数据驱动决策的关键工具。EMR Serverless Spark支持通过Notebook进行交互式开发。本文带您快速体验Notebook的创建、运行...

Impala Web UI

访问Impala Web UI 您可以通过SSH隧道和控制台两种方式访问Impala Web UI，详情请参见通过SSH隧道方式访问开源组件Web UI 和访问链接与端口。说明使用Knox访问UI的前提条件是，Master节点必须具备公网IP地址，并且只允许对Catalogd和...

Workflow商业化发布

EMR Workflow是一个全托管的工作流和任务调度服务，100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务，您可以通过可视化的操作界面轻松地管理工作流和任务，高效构建数据仓库，并为生产任务的稳定运行提供保障。产品文档 ...

技术支持的范围和方式

阿里云E-MapReduce（简称EMR）是云原生开源大数据平台，能够为用户提供简单易集成的开源大数据解决方案。EMR on ECS集群主要构建于ECS之上，集群资源归属于用户，EMR提供基于该资源的半托管云服务能力，用户对集群拥有完全的管理操作权限，...

新版监控诊断功能发布

EMR on ECS发布基于大模型构建的新版监控诊断功能适用客户全网用户新增功能/规格 EMR on ECS新版监控诊断是基于大模型构建的智能运维辅助功能，结合了阿里云EMR团队在开源大数据领域的知识经验、阿里云EMR可观测能力和技术专家的诊断...

EMR Serverless StarRocks服务等级协议更新

《开源大数据平台E-MapReduce Serverless服务等级协议》已于2024年02月02日修订，并将于2024年03月01日生效。当前服务等级协议详情，请在服务等级协议中查看。变更生效时间 2024年03年01日变更范围 EMR Serverless StarRocks（标准版）...