数据报表开源工具-数据报表开源工具文档介绍内容-移动阿里云

EMR与自建Hadoop集群对比优势

与自建Hadoop集群相比，开源大数据开发平台EMR提供弹性资源管理和自动化运维，降低运维复杂度，通过用户管理、数据加密和权限管理等为数据安全保驾护航，同时EMR集成了丰富的开源组件并打通开源生态与阿里云生态，便于快速搭建大数据处理和...

新版监控诊断功能发布

EMR on ECS发布基于大模型构建的新版监控诊断功能适用客户全网用户新增功能/规格 EMR on ECS新版监控诊断是基于大模型构建的智能运维辅助功能，结合了阿里云EMR团队在开源大数据领域的知识经验、阿里云EMR可观测能力和技术专家的诊断...

开源大数据平台 E-MapReduce系统权限策略参考

本文描述开源大数据平台 E-MapReduce支持的所有系统权限策略及其对应的权限描述，供您授权 RAM 身份时参考。什么是系统权限策略权限策略是用语法结构描述的一组权限的集合，可以精确地描述被授权的资源集、操作集以及授权条件。阿里云访问...

开源大数据平台 E-MapReduce系统权限策略参考

本文描述开源大数据平台 E-MapReduce支持的所有系统权限策略及其对应的权限描述，供您授权 RAM 身份时参考。什么是系统权限策略权限策略是用语法结构描述的一组权限的集合，可以精确地描述被授权的资源集、操作集以及授权条件。阿里云访问...

技术支持的范围和方式

阿里云E-MapReduce（简称EMR）是云原生开源大数据平台，能够为用户提供简单易集成的开源大数据解决方案。EMR on ECS集群主要构建于ECS之上，集群资源归属于用户，EMR提供基于该资源的半托管云服务能力，用户对集群拥有完全的管理操作权限，...

授权信息

本文为您介绍开源大数据平台 E-MapReduce 为 RAM 权限策略定义的操作（Action）、资源（Resource）和条件（Condition）。开源大数据平台 E-MapReduce 的 RAM 代码（RamCode）为 starrocks,sr，支持的授权粒度为操作级。权限策略通用结构 ...

什么是EMR on ACK

您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注大数据任务本身。前置概念阅读本文前，您可能需要了解如下概念：什么...

开源大数据平台 E-MapReduce系统权限策略参考

本文描述开源大数据平台E-MapReduce支持的所有系统权限策略及其对应的权限描述，供您授权RAM身份时参考。什么是系统权限策略权限策略是用语法结构描述的一组权限的集合，可以精确地描述被授权的资源集、操作集以及授权条件。阿里云访问...

技术支持的范围和方式

关于阿里云EMR Serverless Spark产品和服务的相关问题，您可以通过以下渠道寻求支持和解决。...填写相关问题信息，产品分类选择开源大数据平台 E-MapReduce。单击提交。售后服务SLA 售后服务SLA详情，请参见企业支持计划的内容。

基本概念

本文介绍开源大数据平台E-MapReduce使用过程中遇到的常用名词的基本概念和简要描述。集群 E-MapReduce产品中的一个独立的机器组合，为上层业务提供一些基础的引擎服务。一个E-MapReduce集群是由一个或多个阿里云ECS实例组成的。ECS实例在E...

授权信息

本文为您介绍开源大数据平台 E-MapReduce 为 RAM 权限策略定义的操作（Action）、资源（Resource）和条件（Condition）。开源大数据平台 E-MapReduce 的 RAM 代码（RamCode）为 emr-serverless-spark，支持的授权粒度为操作级。权限策略...

EMR on ACK商业化公告

您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注大数据任务本身。收费标准阿里云EMR on ACK正式商业化后，将根据集群...

授权信息

本文为您介绍开源大数据平台 E-MapReduce 为 RAM 权限策略定义的操作（Action）、资源（Resource）和条件（Condition）。开源大数据平台 E-MapReduce 的 RAM 代码（RamCode）为 emr，支持的授权粒度为资源级。权限策略通用结构权限策略...

数据迁移

背景信息 EMR Kudu支持社区1.10以及1.11版本，可以使用社区提供的Backup和Restore的工具进行数据的迁移。基本流程示意图如下所示。操作步骤执行以下命令，查看待迁移Kudu表的名称列表。Kudu table list {YourKuduMasterAddress} 说明本文...

开源大数据平台E-MapReduce系统权限策略参考

本文描述开源大数据平台 E-MapReduce支持的所有系统权限策略及其对应的权限描述，供您授权RAM身份时参考。什么是系统权限策略权限策略是用语法结构描述的一组权限的集合，可以精确地描述被授权的资源集、操作集以及授权条件。阿里云访问...

E-MapReduce支持倚天云服务器

阿里云E-MapReduce（简称EMR）支持使用倚天云服务器构建开源大数据集群。与现有X86架构实例体验完全相同的情况下，具有更高的性价比，帮助您降低成本并提高效率。本文为您介绍倚天云服务器的特性、优势，以及在E-Mapreduce上倚天云服务器的...

JindoFS介绍和使用

JindoFS是基于阿里云对象存储OSS，为开源大数据生态构建的Hadoop兼容文件系统（Hadoop Compatible File System，HCFS）。JindoFS提供兼容对象存储的纯客户端模式（SDK）和缓存模式（Cache），以支持与优化Hadoop和Spark生态大数据计算对OSS...

使用独立的Trino集群

背景信息在使用开源大数据平台E-MapReduce控制台时，您可以在创建DataLake集群、自定义集群或Hadoop集群时选择Trino服务，或者创建独立的Trino集群使用Trino服务。Trino集群具备以下特点：Trino独享集群资源，受其他组件干扰少。支持弹性...

SmartData常见问题

JindoFS是阿里云开源大数据E-MapReduce产品提供的一套Hadoop文件系统，主要对Hadoop和Spark大数据生态系统使用阿里云OSS提供多层次的封装支持和优化。基础功能提供适配OSS和支持访问，您可以直接使用JindoFS SDK；标准功能针对OSS提供分布...

应用场景

云原生数据仓库AnalyticDB MySQL版为千万家企业级客户提供了数据处理ETL、实时在线分析、核心报表、大屏和监控能力，为广大商家和消费者提供稳定的离线和在线数据服务。本文介绍云原生数据仓库AnalyticDB MySQL版的五个使用场景：实时数...

应用场景

数据应用：基于StarRocks生成实时业务报表（如GMV监控、用户留存分析），并与BI工具（例如Quick BI）对接，以构建数据大屏，推动T+0决策。数据服务场景阿里云EMR 数据服务集群集成了OSS-HDFS、HBase、Phoenix等核心组件，构建了从海量...

Trino

应用场景 Trino是定位在数据仓库和数据分析业务的分布式SQL引擎，适合以下应用场景：ETL Ad-Hoc查询海量结构化数据或半结构化数据分析海量多维数据聚合或报表分析重要 Trino是一个数仓类产品，因为其对事务支持有限，所以不适合在线业务...

Presto

应用场景 Presto是定位在数据仓库和数据分析业务的分布式SQL引擎，适合以下应用场景：ETL Ad-Hoc查询海量结构化数据或半结构化数据分析海量多维数据聚合或报表分析重要 Presto是一个数仓类产品，因为其对事务支持有限，所以不适合在线...

在EMR集群运行TPC-DS Benchmark

修复开源工具配置问题。部分参数在Hive 2和Hive 3等开源版本中不支持，继续使用TPC-DS会导致作业报错，所以需要参考以下命令替换参数。sed-i 's/hive.optimize.sort.dynamic.partition.threshold=0/hive.optimize.sort.dynamic.partition=...

添加开源Elastic Search数据源

通过开源Elastic Search和DataV结合使用，可以实现数据分析和搜索结果的大屏展示。本文介绍在DataV中添加并使用开源Elastic Search数据源的方法。前提条件已准备好待添加的开源Elastic Search数据源。添加开源Elastic Search数据源登录 ...

什么是EMR on ECS

EMR on ECS是指在ECS上运行EMR，它将EMR的大数据处理能力与ECS的弹性灵活优势相结合，使得您能够更加便捷地配置和管理EMR集群，同时支持多种开源和自研大数据组件，适用于复杂的大数据处理和分析场景。产品架构 EMR主要由四部分组成，分别...

数据可视化展现

在数据分析模块，DataWorks为您提供数据可视化工具，能够将加工后的数据以图表形式直观展示，便于您快速提取关键信息。本文将以场景示例形式，为您介绍如何用DataWorks完成用户画像数据的可视化展示。前提条件在开始示例前，请确认您已经...

数据可视化展现

在数据分析模块，DataWorks为您提供数据可视化工具，能够将加工后的数据以图表形式直观展示，便于您快速提取关键信息。本文将以场景示例形式，为您介绍如何用DataWorks完成用户画像数据的可视化展示。前提条件在开始示例前，请确认您已经...

添加开源Elastic Search数据源

通过开源Elastic Search和DataV结合使用，可以实现数据分析和搜索结果的大屏展示。本文介绍在DataV中添加并使用开源Elastic Search数据源的方法。前提条件已准备好待添加的开源Elastic Search数据源。使用限制仅支持企业版及以上版本。...

从自建StarRocks集群向Serverless StarRocks的迁移...

数据导入方式数据导入方式数据写入分类每日数据增量每日新行数任务数实时写入（Flink）实时数据 10 GB 1 亿行 80 Kafka+Routine 实时数据 10 GB 1 亿行 20 离线导入（Spark Connector、DataX）离线数据 10 GB 1 亿行 120 物化视图...

概述

Spark on MaxCompute是MaxCompute提供的兼容开源Spark的计算服务。它在统一的计算资源和数据集权限体系之上，提供Spark计算框架，支持您以熟悉的开发使用方式提交运行Spark作业，满足更丰富的数据处理分析需求。使用限制 Spark on ...

什么是EMR Notebook

EMR Notebook是一个Serverless化的交互式数据分析和探索平台，满足大数据和AI融合下的数据处理需求，为数据工程师、数据分析师和数据科学家提供了可视化的应用程序开发环境。通过EMR Notebook可以完成对SQL、Python、Markdown等多种语言...

Superset（仅对存量用户开放）

Superset是一款轻量级BI工具。您可以使用Superset连接多个数据源自助分析并可视化、定义图表和看板、导入或导出看板，并且可以对用户和角色进行权限管理。本文以EMR-3.34.0版本的集群为例为您介绍如何使用Superset。背景信息 Superset对E-...

核心特性

PolarDB-X 坚定以兼容MySQL开源生态，从SQL语法、事务行为、生态工具等多个维度都做了深度兼容，应用无需或者修改少量代码即可从MySQL迁移到 PolarDB-X。金融级高可用 PolarDB-X 采用数据多副本架构，为了保证副本间的强一致性（RPO=0），...

ClickHouse

开源大数据平台E-MapReduce（简称EMR）的ClickHouse提供了开源OLAP分析引擎ClickHouse的云上托管服务。EMR ClickHouse完全兼容开源版本的产品特性，同时提供集群快速部署、集群管理、扩容、缩容和监控告警等云上产品功能，并且在开源的基础...

通过Quick BI连接StarRocks实例

背景信息 Quick BI是由阿里云提供的一款全场景数据消费式的BI平台，无缝对接各类云上数据库和自建数据库，大幅提升数据分析和报表开发效率。您只需在Quick BI中添加StarRocks数据源并成功连接，然后可以在Quick BI上进行数据的分析和展示。...

2025-01-20版本

通过Kyuubi Gateway，以兼容开源Kyuubi的方式提交SQL任务。数据目录支持使用RAM用户（子账号）身份访问DLF。支持访问DLF 2.0 Hive Catalog。资源观测支持观测工作空间、队列的资源消耗情况。运行环境 Spark Submit工具支持通过配置参数-...

OSS/OSS-HDFS

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括 JindoFS 存储系统（原JindoFS Block模式）...

JindoData（仅对存量用户开放）

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括JindoFS存储系统（原JindoFS Block模式）、...

Doris

Apache Doris是一个高性能、实时的分析型数据库，能够较好的满足报表分析、即席查询、数据湖联邦查询加速等使用场景。本文为您介绍Apache Doris。背景信息关于更多Apache Doris信息，详情请参见 Doris介绍。使用场景数据源经过各种数据...