开源报表解决方案-开源报表解决方案文档介绍内容-移动阿里云

Celeborn介绍

Apache Celeborn是阿里云开源的中间数据服务，旨在提升大数据计算引擎的性能、稳定性和灵活性。Celeborn设计独立于具体引擎，支持Spark、Flink、MapReduce(MR)和 Tez，并且是目前最流行的Remote Shuffle Service的实现。Celeborn架构 ...

开源生态

SOFAStack 目前涵盖的开源项目有：主要项目通过平台来解决大规模运维中发布、监控和审计的难题，并集成云原生的各种功能（例如容器、Serverless 和 Mesh 等），来提高运维效率。孵化项目一站式管控平台 SOFADashboard。主要工具网络通信...

使用OpenAPI

本文为您介绍使用开源大数据平台E-MapReduce OpenAPI的基本信息。关于使用阿里云OpenAPI的详细介绍，请参见使用OpenAPI。基本信息版本说明 E-MapReduce 版本号说明 2021-03-20 推荐使用。EMR Workbench 版本号说明 2024-04-30 推荐使用...

扩容集群

EMR Serverless StarRocks不仅无缝兼容开源StarRocks，并且具备自动升级软件版本的功能，可省去手动管理版本的繁琐与风险。迁移方案详情，请参见迁移StarRocks数据至EMR Serverless StarRocks。操作步骤重要集群扩容操作不会重启存量...

EMR与自建Hadoop集群对比优势

与自建Hadoop集群相比，开源大数据开发平台EMR提供弹性资源管理和自动化运维，降低运维复杂度，通过用户管理、数据加密和权限管理等为数据安全保驾护航，同时EMR集成了丰富的开源组件并打通开源生态与阿里云生态，便于快速搭建大数据处理和...

Trino

Trino（即原PrestoSQL）是一个开源的分布式SQL查询引擎，适用于交互式分析查询。EMR-3.44.0和EMR-5.10.0版本开始改用社区正式名称Trino，之前各版本控制台显示为Presto，内核其实是Trino，使用时请注意区分。基本特性 Trino使用Java语言...

Presto

应用场景 Presto是定位在数据仓库和数据分析业务的分布式SQL引擎，适合以下应用场景：ETL Ad-Hoc查询海量结构化数据或半结构化数据分析海量多维数据聚合或报表分析重要 Presto是一个数仓类产品，因为其对事务支持有限，所以不适合在线...

org.apache.zeppelin.interpreter.InterpreterException:java.io.IOException:Interpreter process is not running 解决方式：您可以参照以下命令解决该问题。rm-f/usr/lib/zeppelin-current/interpreter/zeppelin-interpreter-shaded-0.10...

ClickHouse

开源大数据平台E-MapReduce（简称EMR）的ClickHouse提供了开源OLAP分析引擎ClickHouse的云上托管服务。EMR ClickHouse完全兼容开源版本的产品特性，同时提供集群快速部署、集群管理、扩容、缩容和监控告警等云上产品功能，并且在开源的基础...

Flink

背景信息 EMR Flink完全兼容开源Flink，相关内容请参见社区文档。例如：DataStream API Table API&SQ Python API 使用场景 Flink广泛应用于大数据实时化的场景，本文从技术领域和企业应用场景进行介绍。技术领域从技术领域的角度，Flink...

查看开源组件 Web 界面

在EMR集群中，为了确保集群安全，Hadoop、Spark和Flink等开源组件的Web界面端口均未对外开放。如果您想直接访问开源组件的Web界面，可根据实际场景选择原生UI地址、Knox代理地址、SSH本地端口转发或 SSH动态端口转发方式进行访问。快速...

OpenLDAP

OpenLDAP是LDAP协议（Lightweight Directory Access Protocol）的开源实现，在EMR集群中主要提供用户管理和身份认证的功能。服务集成OpenLDAP 在EMR集群中，Knox服务默认与OpenLDAP服务对接。当您通过EMR控制台的访问链接与端口功能访问...

Superset（仅对存量用户开放）

解决方法：使用SSH方式登录到集群主节点，详情请参见登录集群。重要请使用root用户进行以下操作。执行以下命令，进入Superset命令行。source/usr/lib/superset-current/bin/activate 执行以下命令，创建管理员用户。superset fab create-...

Flink版本调整公告

为了更好地融入开源生态，提供更加开放和多样化的计算服务，阿里云E-MapReduce（简称EMR）从EMR-5.17.0和EMR-3.51.0版本开始，将Flink引擎版本从Flink企业版Ververica Runtime（简称VVR）调整为Flink社区开源版本，同时引入RocksDB作为存储...

EMR Studio（已不支持新购）

EMR Studio是E-MapReduce提供的开源大数据开发套件，包含Apache Zeppelin、Jupyter Notebook和Apache Airflow等开源组件。能够无缝关联EMR集群（EMR on ECS和EMR on ACK）的计算引擎提交任务，并提供了交互式开发、任务调度和任务监控等...

常见问题

解决方法：登录集群的emr-header-1节点，手动修改配置文件/etc/ecm/ranger-usersync-conf/ranger-ugsync-site.xml 中 ranger.usersync.enabled 的参数值为true，然后在EMR控制台重启RangerUserSync组件。如何将Unix用户同步到Ranger UI的...

JindoCache

大数据分析（Hive/Spark 报表）：减少报表生成时间，优化计算集群成本。湖仓一体：减少请求费用，优化数据目录（catalog）的响应延迟。AI：加速训练等场景，降低AI集群使用成本，提供更全面的能力支持。缓存策略 JindoCache支持数据缓存...

支持倚天云服务器

阿里云E-MapReduce支持使用倚天云服务器构建开源大数据集群。适用客户全网用户新增功能/规格阿里云E-MapReduce（简称EMR）支持使用倚天云服务器构建开源大数据集群。与现有X86架构实例体验完全相同的情况下，具有更高的性价比，帮助用户...

Shell

与开源Zeppelin相比，E-MapReduce（简称EMR）数据开发集群中的Shell解释器支持在不同EMR集群环境里切换。本文通过示例为您介绍如何在Zeppelin中使用Shell。使用示例运行hadoop命令执行如下命令会显示当前EMR集群根目录下的所有文件，切换...

E-MapReduce Doctor

E-MapReduce Doctor（简称EMR Doctor）是E-MapReduce产品自研的面向开源大数据集群的智能运维诊断系统。通过EMR Doctor（即监控诊断页面的“健康诊断”和“集群日报”功能）可以全局了解集群的健康状况和动态走势，为运维决策和资源优化...

访问Web UI

解决方法：访问Web UI，需要ACK集群具备公网Ingress Controller以提供公网可达的域名，并转发请求到相应Service。如果创建ACK集群时没有勾选Ingress组件，则可以按照以下步骤为已有的ACK集群开启公网Ingress服务。进入集群详情页面。登录 ...

EMR旧版数据开发功能下线公告

E-MapReduce（简称EMR）数据开发（旧版）已于2023年9月30日0点停止全面支持，不再支持用户答疑、问题解决、SLA保障赔付等服务，详情请参见 EMR数据开发（旧版）停止全面支持公告。自2024年12月30日0点起，EMR数据开发（旧版）功能将逐步在...

SSH隧道访问开源组件Web界面

除了通过EMR控制台提供的链接地址访问开源组件Web界面外，还可通过SSH隧道方式进行安全访问。通过SSH隧道和SOCKS代理，您可在不暴露集群内部网络结构的情况下访问开源组件Web界面。说明开源组件Web界面访问方式选择，请参见查看开源组件 ...

SQL与函数参考

EMR Serverless StarRocks兼容开源StarRocks的SQL语法和函数，您可以参考以下文档进行开发设计。StarRocks版本参考文档 3.3系列 SQL参考函数参考 3.2系列 SQL参考函数参考 2.5系列 SQL参考函数参考

查看账单

在账单详情页签中，设置账单月份，并在列表中筛选产品为开源大数据平台 E-MapReduce，然后基于您的实际需求选择产品明细。您还可以通过统计项和统计周期选择账单的展示内容。账单详细内容，可参见费用与成本的账单管理。相关文档 ...

Paimon

目前阿里云开源大数据平台E-MapReduce常见的计算引擎（例如Flink、Spark、Hive或Trino）都与Paimon有着较为完善的集成度。您可以借助Apache Paimon快速地在HDFS或者云端OSS上构建自己的数据湖存储服务，并接入上述计算引擎实现数据湖的分析...

什么是EMR Serverless Spark

针对数据仓库和BI分析场景，通过SQL编辑器提供低门槛的数据查询与报表开发功能，同时兼容传统数据仓库的使用习惯场景。在人工智能与数据科学领域，集成了支持Python环境管理和交互式机器学习开发的Notebook功能。其设计理念是打造一个统一...

开源组件常用端口

本文为您介绍开源组件常用端口。服务端口描述 Hadoop 2.X 50070 HDFS Web UI的端口。配置参数为 dfs.namenode.http-address 或 dfs.http.address 。说明 dfs.http.address 已过期但仍能使用。50075 DataNode Web UI的端口。50010 ...

技术支持的范围和方式

关于阿里云EMR Serverless Spark产品和服务的相关问题，您可以通过以下渠道寻求支持和解决。支持范围类别详情支持的服务负责EMR Serverless Spark控制台的使用、咨询服务、稳定性问题以及产品缺陷问题处理。主要支持以下功能：工作空间...

什么是EMR Workflow

EMR Workflow是一个全托管的工作流和任务调度服务，100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务，您可以通过可视化的操作界面轻松地管理工作流和任务，高效构建数据湖仓，并为生产任务的稳定运行提供保障。产品优势 ...

通过控制台访问开源组件Web界面

通过访问链接与端口功能，您可方便地通过控制台方式访问集群中已安装开源组件Web界面的地址。本文将介绍如何设置安全组规则和访问链接，以便查看集群中开源组件的UI界面。说明开源组件Web界面访问方式选择，请参见查看开源组件 Web 界面...

什么是EMR Notebook

兼容开源 EMR Notebook兼容开源Jupyter Notebook，您可以通过文件导入、导出的方式实现开发工具的自由切换，从而降低了使用门槛。产品功能交互式编程环境支持逐步执行SQL和Python代码，并根据运行结果调整后续代码。多种数据源类型支持...

Flink DataStream参考

DataFlow集群的Flink DataStream API完全兼容开源的Flink版本，关于Flink DataStream API的详细信息，请参见 Flink DataStream API Programming Guide。上下游存储（Connector）EMR-5.17.0&3.51.0及之后版本开源Flink的上下游存储，详情请...

常见问题

解决方法：您需要在执行查询Hudi表的命令时，添加上 spark.sql.hive.convertMetastoreParquet=false。Hive查询Hudi数据重复，如何处理？问题原因：Hive默认使用HiveCombineInputFormat不会调用表自定义的 input format。解决方法：您需要在...

Impala Web UI

访问Impala Web UI 您可以通过SSH隧道和控制台两种方式访问Impala Web UI，详情请参见通过SSH隧道方式访问开源组件Web UI 和访问链接与端口。说明使用Knox访问UI的前提条件是，Master节点必须具备公网IP地址，并且只允许对Catalogd和...

Workflow商业化发布

EMR Workflow是一个全托管的工作流和任务调度服务，100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务，您可以通过可视化的操作界面轻松地管理工作流和任务，高效构建数据仓库，并为生产任务的稳定运行提供保障。产品文档 ...

SmartData 2.6.0-2.7.2版本简介

元数据服务后端存储方案升级在原有RocksDB方案的基础上，新版本推出了Tablestore和Raft的后端存储方案，实现元数据上云。针对使用Cache模式且对于元数据存储以及HA没有高要求的场景，默认的RocksDB是一种简单、实用而且高效的方案。...

EMR数据开发停止更新公告

EMR Workflow是一个全托管的工作流和任务调度服务，100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务，您可以通过可视化的操作界面轻松地管理工作流和任务，高效构建数据仓库，并为生产任务的稳定运行提供保障。EMR ...

常见问题

解决方法：需要新增配置 hdfs.batchSize，添加组件参数详情，请参见添加组件参数。HDFS Sink通过 hdfs.batchSize 配置来控制每满多少Event，刷新一次到HDFS。如果不配置该参数，默认每100条刷新一次到HDFS，会导致数据刷新不及时。终止...

新版监控诊断功能发布

EMR on ECS发布基于大模型构建的新版监控诊断功能适用客户全网用户新增功能/规格 EMR on ECS新版监控诊断是基于大模型构建的智能运维辅助功能，结合了阿里云EMR团队在开源大数据领域的知识经验、阿里云EMR可观测能力和技术专家的诊断...