开源报表工具python-开源报表工具python文档介绍内容-移动阿里云

Python作业开发

本文为您介绍Flink Python API作业开发的背景信息、使用限制、开发方法、调试方法和连接器使用等。背景信息 Flink Python作业需要您在本地完成开发工作，Python作业开发完成后，再在Flink开发控制台上部署并启动才能看到业务效果。整体的...

自定义表值函数（UDTF）

Flink Python UDX示例中包含了Python UDF、Python UDAF和Python UDTF的实现。本文以Windows操作系统为例，为您介绍如何进行UDTF开发。下载并解压 python_demo-master 示例到本地。在PyCharm中，单击 file open，打开刚才解压缩完成的 ...

自定义聚合函数（UDAF）

使用限制由于实时计算Flink版受部署环境和网络环境等因素的影响，开发Python自定义函数时，需要注意以下限制：仅支持开源Flink V1.12及以上版本。Flink工作空间已预装了Python，因此需要您在对应Python版本上开发代码。说明实时计算引擎...

TensorFlow（仅对存量用户开放）

Data Science集群内置Python 3的Tensorflow 1.15.0版本，可以直接使用。其中Master节点只支持购买CPU资源计算TensorFlow作业，Core节点支持购买CPU或GPU资源计算TensorFlow作业。本文主要介绍如何查看TensorFlow的版本、切换TensorFlow版本...

EMR Workbench

多语言支持：允许使用Python、SQL等多种语言进行数据分析任务。协同开发：支持多用户同时访问，每个用户的开发环境是独立的，互不影响，实现高效协作。数据处理能力：集成了Apache Spark、Hive、StarRocks等强大的数据处理框架。EMR ...

SmartData 3.1.x版本简介

功能变更 JindoFS存储优化 JindoFS缓存优化 JindoTable计算优化 JindoManager系统管理 JindoTools工具集 JindoFS生态支持 JindoFS存储优化支持文件的checksum功能，对齐开源HDFS checksum相关接口，支持MD5MD5CRC和COMPOSITE_CRC两种算法...

Airflow->DataWorks

推荐的导出工具运行环境（二选一）：1、在Airflow调度所在Python环境中运行（需满足Python=3.9.0的条件）2、准备新的Python环境并安装与生产环境同版本的Airflow Python库，需注意Airflow库与Python版本的对照关系。方案二中提到的新Python...

SmartData 3.4.x版本简介

SmartData组件是EMR Jindo引擎的存储部分，为EMR各个计算引擎提供统一的存储、缓存、计算优化以及功能扩展。SmartData组件主要包括JindoFS、...JindoFS生态支持新增Python版本的Jindo OSS SDK，支持基本的OSS操作，兼容OSS2 Python库。

任务开发与调度

本章节介绍如何通过多种工具和框架提交和调度大数据任务，支持从交互式开发到自动化调度的全流程任务管理。通过DolphinScheduler提交Spark任务通过Serverless Spark提交PySpark流任务通过spark-submit提交任务通过Apache Airflow提交...

什么是EMR on ECS

EMR on ECS是指在ECS上运行EMR，它将EMR的大数据处理能力与ECS的弹性灵活优势相结合，使得您能够更加便捷地配置和管理EMR集群，同时支持多种开源和自研大数据组件，适用于复杂的大数据处理和分析场景。产品架构 EMR主要由四部分组成，分别...

ClickHouse

开源大数据平台E-MapReduce（简称EMR）的ClickHouse提供了开源OLAP分析引擎ClickHouse的云上托管服务。EMR ClickHouse完全兼容开源版本的产品特性，同时提供集群快速部署、集群管理、扩容、缩容和监控告警等云上产品功能，并且在开源的基础...

为Python应用安装探针

在为Python应用手动安装 ARMS 探针并部署到 SAE 之后，您就可以通过 ARMS 监控该应用。通过 ARMS，您可以查看包括应用拓扑、调用链路分析、SQL性能分析等在内的多种监控数据。本文主要介绍为应用手动安装 ARMS 探针并部署至 SAE。前提条件 ...

通过 Gateway 向全托管 spark 提交任务

通过Livy，您可以利用Airflow中的livy_operator以及spark_magic等开源项目，向Serverless Spark提交任务、查询任务状态并获取计算结果。Kyuubi提供了JDBC/ODBC接口，支持通过SQL查询或BI工具（如Tableau、Power BI）直接连接Serverless ...

Trino

Trino（即原PrestoSQL）是一个开源的分布式SQL查询引擎，适用于交互式分析查询。EMR-3.44.0和EMR-5.10.0版本开始改用社区正式名称Trino，之前各版本控制台显示为Presto，内核其实是Trino，使用时请注意区分。基本特性 Trino使用Java语言...

Gateway管理

通过Livy，您可以利用Airflow中的livy_operator以及spark_magic等开源项目，向Serverless Spark提交任务、查询任务状态并获取计算结果。Kyuubi提供了JDBC/ODBC接口，支持通过SQL查询或BI工具（如Tableau、Power BI）直接连接Serverless ...

Presto

基本特性 Presto使用Java语言进行开发，具备易用、高性能和强扩展能力等特点，具体如下：完全支持ANSI SQL。支持丰富的数据源，例如，Hive、Hudi、Iceberg、Delta Lake、MySQL和PostgreSQL。支持高级数据结构，具体如下：数组和Map数据 ...

连接并使用实例

通过JDBC方式连接计算引擎 JDBC开发实践通过JAR方式连接计算引擎 JAR作业开发实践通过Python方式连接计算引擎 Python作业开发实践流引擎通过Lindorm-cli连接流引擎通过客户端连接并使用Lindorm流引擎通过开源Kafka客户端连接流引擎 ...

Superset（仅对存量用户开放）

Superset是一款轻量级BI工具。您可以使用Superset连接多个数据源自助分析并可视化、定义图表和看板、导入或导出看板，并且可以对用户和角色进行权限管理。本文以EMR-3.34.0版本的集群为例为您介绍如何使用Superset。背景信息 Superset对E-...

2025-01-20版本

通过Kyuubi Gateway，以兼容开源Kyuubi的方式提交SQL任务。数据目录支持使用RAM用户（子账号）身份访问DLF。支持访问DLF 2.0 Hive Catalog。资源观测支持观测工作空间、队列的资源消耗情况。运行环境 Spark Submit工具支持通过配置参数-...

Doris

Apache Doris是一个高性能、实时的分析型数据库，能够较好的满足报表分析、即席查询、数据湖联邦查询加速等使用场景。本文为您介绍Apache Doris。背景信息关于更多Apache Doris信息，详情请参见 Doris介绍。使用场景数据源经过各种数据...

Kyuubi

Kyuubi和Livy以及Spark ThriftServer对比对比项 Kyuubi Livy Spark ThriftServer 支持接口 SQL、Scala SQL、Scala、Python and R SQL 支持引擎 Spark、Flink、Trino Spark Spark Spark版本 Spark 3.x Spark 2.x&Spark 3.x Spark组件自带 ...

应用场景

适用场景 OLAP多维分析用户行为分析用户画像、标签分析、圈人高维业务指标报表自助式报表平台业务问题探查分析跨主题业务分析财务报表系统监控分析实时数仓电商大促数据分析教育行业的直播质量分析物流行业的运单分析金融行业...

Flink SQL参考

Flink SQL是为了简化计算模型、降低您使用Flink门槛而设计的一套符合标准SQL语义的开发语言。本文通过以下方面，为您介绍Flink SQL的使用方法。操作文档关键字关键字创建数据视图创建数据视图 DML数据操作语句（INSERT INTO）INSERT ...

安装和使用EMR Serverless Spark SDK

阿里云EMR Serverless Spark SDK支持Java、TypeScript、Go、PHP、Python、C#、C++、Swift语言SDK开发，封装了2023-08-08版本API，以访问密钥（AccessKey）识别调用者身份，提供自动签名等功能。安装EMR Serverless Spark SDK 各语言SDK的...

Kafka Manager

Kafka Manager是专为Kafka设计的集群管理工具，提供了WebUI界面，允许用户通过图形化界面便捷地管理Kafka集群。本文为您介绍如何访问Kafka Manager的WebUI，并将集群添加至Kafka Manager的WebUI界面。前提条件已创建选择了Kafka服务的...

OSS/OSS-HDFS

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括 JindoFS 存储系统（原JindoFS Block模式）...

EMR元数据迁移公告

数据湖元数据DLF是阿里云提供的统一元数据服务，具有高可用、免运维和高性能等优点，兼容Hive Metastore，无缝对接EMR上开源计算引擎，并支持多版本管理和Data Profile功能。另外，DLF还支持数据探索、湖管理和数据权限控制等功能，并与...

EMR旧版数据开发迁移公告

EMR Workflow是一个全托管的工作流和任务调度服务，100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务，您可以通过可视化的操作界面轻松地管理工作流和任务，高效构建数据仓库，并为生产任务的稳定运行提供保障。EMR ...

JindoData（仅对存量用户开放）

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括JindoFS存储系统（原JindoFS Block模式）、...

2025-09-17版本

通过密文管理敏感信息运行环境管理新增支持按照指定Python版本配置运行环境。管理运行环境纳管文件目录新增功能支持在数据开发批任务中挂载纳管文件目录。挂载后，用户可以在批任务中对纳管文件目录中的文件进行读写操作。纳管文件目录...

和开源产品对比

有开源产品同样可以实现分布式任务调度，本文介绍SchedulerX和开源产品的对比，帮助您更好的了解分布式任务调度和SchedulerX。产品名称定时调度工作流分布式任务白屏化任务治理任务类型报警监控使用成本 Quartz Cron 不支持不支持 ...

JindoFS块存储模式

应用场景 E-MapReduce目前提供了三种大数据存储系统，E-MapReduce OssFileSystem、E-MapReduce HDFS和E-MapReduce JindoFS，其中OssFileSystem和JindoFS都是云上存储的解决方案，下表为这三种存储系统和开源OSS各自的特点。特点开源OSS E-...

EMR数据开发停止更新公告

EMR Workflow是一个全托管的工作流和任务调度服务，100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务，您可以通过可视化的操作界面轻松地管理工作流和任务，高效构建数据仓库，并为生产任务的稳定运行提供保障。EMR ...

Python SDK

本文介绍安装云网管Python SDK及使用Python SDK完成常见操作的相关步骤。前提条件已开通云网管。更多信息，请参见开通使用云网管。已创建并获取AccessKey。更多信息，请参见访问密钥。已安装Python开发环境。云网管Python SDK支持Python...

SPARK

支持 JAVA、SCALA、PYTHON、SQL 和 CUSTOM_SCRIPT 语言。说明选择的类型不同，展示的参数也不同，具体以控制台为准。主函数的Class Spark程序的入口Main Class的全路径。主程序包执行Spark程序的JAR包。通过资源中心上传，详情请参见 ...

快速入门

步骤四：编写Airflow Python脚本 Airflow的调度需要手动编写Python脚本来构建DAG，EMR Studio自动将指定OSS路径内的Python脚本同步至Airflow DAGs，因此，您可以在编辑和上传完DAG脚本之后，进入数据开发工作台，在左侧导航栏中，单击 ...

Python语言迁移

Python是一种解释型脚本语言，代码与平台无关，在ARM平台上可以直接使用，无需编译。以Alibaba Cloud Linux 3为例，运行以下命令，安装Python 3.8。sudo yum install python38-y 说明建议您使用Python 3.7及以上版本，因为Python 2.7和3.6...

开源大数据平台 E-MapReduce

开源大数据平台E-MapReduce（Elastic MapReduce）是运行在阿里云平台上的一种大数据处理的系统解决方案。

Spark2 python3.7/usr/local/bin/python3.7 Spark3 python3.7/usr/local/bin/python3.7 EMR-3.42.0版本、EMR-5.8.0版本 Spark2 python3.6/bin/python3.6 Spark3 python3.6/bin/python3.6 Python第三方库安装安装pip3.8。部分EMR版本（EMR ...

Serverless Spark使用Python三方库

如何在Serverless Spark环境中使用Python三方库适用客户全网用户新增功能/规格 PySpark作业往往需要借助Python第三方库来增强数据处理和分析能力。本文档详细介绍了如何利用Conda和PEX这两种方法，有效地将这些库集成到Serverless Spark...