报表开发工具开源-报表开发工具开源文档介绍内容-移动阿里云

Hadoop DistCp介绍

Hadoop DistCp和Jindo DistCp的区别 DistCp类型功能使用场景 Hadoop DistCp 开源Hadoop内置的DistCp工具，用于大型集群间或集群内数据的复制。HDFS到HDFS间的数据复制。Jindo DistCp JindoFS的数据迁移工具，支持OSS、OSS-HDFS服务、兼容...

开源版和商业版介绍

选型指南各个版本的能力和适用场景信息见下表：版本能力场景文档开源版本具有模块化开发、类隔离、日志隔离、SOFA-RPC 等能力。适合寻求开源解决方案。开源版参考文档。商业版本除了开源版能力，还对接服务注册中心，支持消息、分布...

查看报表

报表中心功能通过综合分析表、合规分析报表、性能分析报表、安全运营分析报表、数据库业务和会话分析表，展示您数据库资产的审计情况和安全风险的分析结果。您可以根据业务需要使用对应的报表。本文介绍支持的报表类型，以及如何通过报表...

什么是EMR Workflow

提供与Apache DolphinScheduler兼容的接口和使用体验，支持开源DolphinScheduler和EMR旧版数据开发作业的一键迁移。产品功能 EMR Workflow具有如下功能：支持多种任务类型。例如 SHELL、SPARK、HIVECLI 等多种类型的任务调度。可视化的任务...

Flink（VVR）作业配置

EMR-3.27.x及之前版本使用Flink社区开源版本，EMR-3.27.x之后版本使用完全兼容开源Flink的企业版（VVR）。本文介绍如何配置Flink（VVR）类型的作业。背景信息 Flink企业版由Apache Flink创始团队官方出品，拥有全球统一商业化品牌。VVR提供...

自定义函数（UDF）

本文为您介绍自定义函数的开发和使用流程。背景信息 UDF分类如下表。UDF分类描述 UDF（User Defined Scalar Function）自定义标量函数，通常称为UDF。其输入与输出是一对一的关系，即读入一行数据，写出一条输出值。UDTF（User Defined ...

SparkSQL UDF基础操作

使用Hive UDF 使用文件传输工具，上传生成的JAR包至集群任意目录（本文以test目录为例）。上传JAR包至HDFS或OSS（本文以HDFS为例）。通过SSH方式登录集群，详情请参见登录集群。执行以下命令，上传JAR包到HDFS。hadoop fs-put/test/...

OpenLDAP

OpenLDAP是一种开源软件，您可以使用OpenLDAP提供的命令行工具ldapadd、ldapdelete、ldapmodify等来管理用户，使用ldif文件进行用户管理。这种方式需要参考OpenLDAP开源社区的文档来进行操作。开源文档请参见 OpenLDAP。

开源大数据平台 E-MapReduce

开源大数据平台E-MapReduce（Elastic MapReduce）是运行在阿里云平台上的一种大数据处理的系统解决方案。

Serverless Spark集成 Notebook

Notebook 促进了数据分析师和数据工程师之间的协作，支持快速原型设计和实验，是探索数据、开发机器学习模型以及进行数据驱动决策的关键工具。EMR Serverless Spark支持通过Notebook进行交互式开发。本文带您快速体验Notebook的创建、运行...

管理资源队列

应用环境开发：开发者编写、测试和调试代码的地方，通常包括IDE（集成开发环境）、版本控制系统和各类调试工具，用于开发者进行软件的构建与调试。生产：供用户使用的实际运行环境，提供稳定、高效和安全的服务。包年包月参数说明队列...

Shell

与开源Zeppelin相比，E-MapReduce（简称EMR）数据开发集群中的Shell解释器支持在不同EMR集群环境里切换。本文通过示例为您介绍如何在Zeppelin中使用Shell。使用示例运行hadoop命令执行如下命令会显示当前EMR集群根目录下的所有文件，切换...

扩展功能

扩展工具箱 mPaaS 小程序的扩展配置，均在 IDE 扩展工具箱中实现。点击界面左侧的工具箱图标（）即可打开 IDE 扩展工具。设置白名单设置点击工具箱中的设置白名单设置，输入白名单并确认即可。此白名单对应的是登录 App 客户端的 ...

任务开发与调度

本章节介绍如何通过多种工具和框架提交和调度大数据任务，支持从交互式开发到自动化调度的全流程任务管理。通过DolphinScheduler提交Spark任务通过Serverless Spark提交PySpark流任务通过spark-submit提交任务通过Apache Airflow提交...

SQL与函数参考

EMR Serverless StarRocks兼容开源StarRocks的SQL语法和函数，您可以参考以下文档进行开发设计。StarRocks版本参考文档 3.3系列 SQL参考函数参考 3.2系列 SQL参考函数参考 2.5系列 SQL参考函数参考

SmartData 3.1.x版本简介

功能变更 JindoFS存储优化 JindoFS缓存优化 JindoTable计算优化 JindoManager系统管理 JindoTools工具集 JindoFS生态支持 JindoFS存储优化支持文件的checksum功能，对齐开源HDFS checksum相关接口，支持MD5MD5CRC和COMPOSITE_CRC两种算法...

综合：网站用户画像分析

开源全托管服务EMR Serverless StarRocks 开源大数据平台 E-MapReduce 开源全托管服务EMR Serverless Spark 数据中台一站式大数据开发治理DataWorks 在本案例中，DataWorks作为数据中台，用于对原始数据进行同步、加工、质量监控、数据...

通过 Gateway 向全托管 spark 提交任务

通过Livy，您可以利用Airflow中的livy_operator以及spark_magic等开源项目，向Serverless Spark提交任务、查询任务状态并获取计算结果。Kyuubi提供了JDBC/ODBC接口，支持通过SQL查询或BI工具（如Tableau、Power BI）直接连接Serverless ...

会话管理

Spark Thrift Server会话：Spark Thrift Server是Apache Spark提供的一种服务，支持通过JDBC或ODBC连接并执行SQL查询，从而便捷地将Spark环境与现有的商业智能（BI）工具、数据可视化工具及其他数据分析工具集成。相关文档管理SQL会话 ...

Gateway管理

通过Livy，您可以利用Airflow中的livy_operator以及spark_magic等开源项目，向Serverless Spark提交任务、查询任务状态并获取计算结果。Kyuubi提供了JDBC/ODBC接口，支持通过SQL查询或BI工具（如Tableau、Power BI）直接连接Serverless ...

技术支持的范围和方式

阿里云E-MapReduce（简称EMR）是云原生开源大数据平台，能够为用户提供简单易集成的开源大数据解决方案。EMR on ECS集群主要构建于ECS之上，集群资源归属于用户，EMR提供基于该资源的半托管云服务能力，用户对集群拥有完全的管理操作权限，...

ClickHouse

开源大数据平台E-MapReduce（简称EMR）的ClickHouse提供了开源OLAP分析引擎ClickHouse的云上托管服务。EMR ClickHouse完全兼容开源版本的产品特性，同时提供集群快速部署、集群管理、扩容、缩容和监控告警等云上产品功能，并且在开源的基础...

作业提交

阿里云EMR集群提供多种作业提交方式，全面涵盖从开发调试（Master节点）到生产管控（Gateway节点）以及自动化调度（DataWorks）等各个场景，以满足不同角色的需求。本文将为您介绍三种方式的优缺点及其适用场景。提交方式说明提交方式优...

开发参考

本文介绍了E-MapReduce的SDK和API相关的内容，供您进行对应的开发操作。EMR on ECS API概览 SDK概述 EMR Serverless Spark API概览 SDK参考

使用HBase Shell

创建包含HBase服务的...HBase主要通过命令行工具（HBase Shell）、Java API以及其他一些接口（如REST API和Thrift）来提供数据的增删改查操作。相关文档您可以查看Apache HBase Shell官方文档了解更多信息，详情请参见 Apache HBase官网。

概述

它在统一的计算资源和数据集权限体系之上，提供Spark计算框架，支持您以熟悉的开发使用方式提交运行Spark作业，满足更丰富的数据处理分析需求。使用限制 Spark on MaxCompute支持如下场景：离线计算场景，例如GraphX、Mllib、RDD、Spark-...

2025-01-20版本

通过Kyuubi Gateway，以兼容开源Kyuubi的方式提交SQL任务。数据目录支持使用RAM用户（子账号）身份访问DLF。支持访问DLF 2.0 Hive Catalog。资源观测支持观测工作空间、队列的资源消耗情况。运行环境 Spark Submit工具支持通过配置参数-...

快速入门

EMR on ECS EMR on ECS快速入门 E-MapReduce快速入门 EMR on ACK EMR on ACK快速入门 EMR Serverless StarRocks 快速使用存算一体版实例快速使用存算分离版实例快速使用EMR StarRocks Manager EMR Serverless Spark SQL开发快速入门 ...

Flink

背景信息 EMR Flink完全兼容开源Flink，相关内容请参见社区文档。例如：DataStream API Table API&SQ Python API 使用场景 Flink广泛应用于大数据实时化的场景，本文从技术领域和企业应用场景进行介绍。技术领域从技术领域的角度，Flink...

操作指南

您可以在E-Mapreduce控制台创建和管理集群或实例等操作。形态文档 EMR on ECS 创建集群克隆集群新增服务管理配置项 ...数据开发与查询数据导入快速实现向量检索 EMR Serverless Spark SQL开发 Notebook开发 Application开发管理工作流

常用工具参考

工具简介命令行工具ossutil 2.0（预览版）ossutil是OSS的新版命令行管理工具，方便您高效使用OSS。更多信息，请参见命令行工具ossutil 2.0（预览版）。阿里云CLI 阿里云CLI（Command Line Interface）是一种命令行工具，允许用户在终端...

Superset（仅对存量用户开放）

Superset是一款轻量级BI工具。您可以使用Superset连接多个数据源自助分析并可视化、定义图表和看板、导入或导出看板，并且可以对用户和角色进行权限管理。本文以EMR-3.34.0版本的集群为例为您介绍如何使用Superset。背景信息 Superset对E-...

BI工具集成

本章节展示如何将BI工具与大数据平台集成，构建高效的数据可视化解决方案。使用Power BI连接EMR Serverless Spark并进行数据可视化

Doris

Apache Doris是一个高性能、实时的分析型数据库，能够较好的满足报表分析、即席查询、数据湖联邦查询加速等使用场景。本文为您介绍Apache Doris。背景信息关于更多Apache Doris信息，详情请参见 Doris介绍。使用场景数据源经过各种数据...

查看开源组件 Web 界面

在EMR集群中，为了确保集群安全，Hadoop、Spark和Flink等开源组件的Web界面端口均未对外开放。如果您想直接访问开源组件的Web界面，可根据实际场景选择原生UI地址、Knox代理地址、SSH本地端口转发或 SSH动态端口转发方式进行访问。快速...

开发准备

本文介绍E-MapReduce开发的准备工作。准备工作如下：请确认您已经开通了阿里云服务，并创建了AccessKey ID和AccessKey Secret。请确认您已开通OSS。您已经对Spark、Hadoop、Hive和Pig具备一定的认识。文中不对Spark、Hadoop、Hive和Pig开发...

EMR数据开发（旧版）停止全面支持公告

E-MapReduce（简称EMR）数据开发（旧版）已于2022年2月21日21点停止更新，进入维护状态，详情请参见 EMR数据开发停止更新公告。2023年9月30日0点起，EMR数据开发（旧版）功能将停止全面支持，不再支持用户答疑、问题解决、SLA保障赔付等...

EMR Serverless Spark商业化公告

产品优势如下：云原生极速计算引擎内置Fusion Engine(Spark Native Engine)，相对开源版本性能提升300%。内置Celeborn（Remote Shuffle Service），支持PB级Shuffle数据，计算资源总成本最高下降30%。开放化的数据湖架构支持计算存储分离...

基础工具与操作

本章节提供基础工具的操作指南，帮助用户高效完成数据存储、管理和运维相关任务。在Notebook中使用Hadoop命令操作OSS/OSS-HDFS

Flink版本调整公告

为了更好地融入开源生态，提供更加开放和多样化的计算服务，阿里云E-MapReduce（简称EMR）从EMR-5.17.0和EMR-3.51.0版本开始，将Flink引擎版本从Flink企业版Ververica Runtime（简称VVR）调整为Flink社区开源版本，同时引入RocksDB作为存储...