数据报表开源-数据报表开源文档介绍内容-移动阿里云

JindoFS介绍和使用

JindoFS是基于阿里云对象存储OSS，为开源大数据生态构建的Hadoop兼容文件系统（Hadoop Compatible File System，HCFS）。JindoFS提供兼容对象存储的纯客户端模式（SDK）和缓存模式（Cache），以支持与优化Hadoop和Spark生态大数据计算对OSS...

使用独立的Trino集群

背景信息在使用开源大数据平台E-MapReduce控制台时，您可以在创建DataLake集群、自定义集群或Hadoop集群时选择Trino服务，或者创建独立的Trino集群使用Trino服务。Trino集群具备以下特点：Trino独享集群资源，受其他组件干扰少。支持弹性...

创建EMR Studio集群

数据开发存储 EMR Studio集群的数据都会存在OSS上，即使您的EMR Studio集群销毁了，您可以通过重新创建集群来恢复原有集群的状态（包括您的Notebook以及Airflow调度的作业），并且代码和配置都不会丢失。EMR Studio集群会在您所选OSS路径下...

SmartData常见问题

JindoFS是阿里云开源大数据E-MapReduce产品提供的一套Hadoop文件系统，主要对Hadoop和Spark大数据生态系统使用阿里云OSS提供多层次的封装支持和优化。基础功能提供适配OSS和支持访问，您可以直接使用JindoFS SDK；标准功能针对OSS提供分布...

Hadoop集群迁移至DataLake集群

背景信息 E-MapReduce（简称EMR）新版控制台是EMR发布的下一代云原生开源大数据平台，为用户提供全新平台体验、全新开发平台、全新资源形态和全新分析场景。新版控制台的功能特点，详情请参见 EMR新版控制台上线公告。EMR on ECS作为EMR...

组件操作

HDFS概述 HDFS常用命令 JVM内存调优 HBase HBase是一种分布式、面向列的开源数据库，其基于Hadoop文件系统构建，旨在为大型数据集提供低延迟的随机读写访问和高可靠性存储。使用HBase快照使用HBase Shell 常见问题和故障诊断 Celeborn ...

Trino

应用场景 Trino是定位在数据仓库和数据分析业务的分布式SQL引擎，适合以下应用场景：ETL Ad-Hoc查询海量结构化数据或半结构化数据分析海量多维数据聚合或报表分析重要 Trino是一个数仓类产品，因为其对事务支持有限，所以不适合在线业务...

Presto

应用场景 Presto是定位在数据仓库和数据分析业务的分布式SQL引擎，适合以下应用场景：ETL Ad-Hoc查询海量结构化数据或半结构化数据分析海量多维数据聚合或报表分析重要 Presto是一个数仓类产品，因为其对事务支持有限，所以不适合在线...

添加开源Elastic Search数据源

通过开源Elastic Search和DataV结合使用，可以实现数据分析和搜索结果的大屏展示。本文介绍在DataV中添加并使用开源Elastic Search数据源的方法。前提条件已准备好待添加的开源Elastic Search数据源。添加开源Elastic Search数据源登录 ...

添加开源Elastic Search数据源

通过开源Elastic Search和DataV结合使用，可以实现数据分析和搜索结果的大屏展示。本文介绍在DataV中添加并使用开源Elastic Search数据源的方法。前提条件已准备好待添加的开源Elastic Search数据源。使用限制仅支持企业版及以上版本。...

概述

Spark on MaxCompute是MaxCompute提供的兼容开源Spark的计算服务。它在统一的计算资源和数据集权限体系之上，提供Spark计算框架，支持您以熟悉的开发使用方式提交运行Spark作业，满足更丰富的数据处理分析需求。使用限制 Spark on ...

DeltaLake

对比项 Data Warehouse Data Lake Delta Lake 架构计算存储一体或分离计算存储分离计算存储分离存储管理严格、非通用原生格式通用格式、轻量级场景报表、分析报表、分析、数据科学报表、分析、数据科学灵活性低高较高数据...

通过Quick BI连接StarRocks实例

背景信息 Quick BI是由阿里云提供的一款全场景数据消费式的BI平台，无缝对接各类云上数据库和自建数据库，大幅提升数据分析和报表开发效率。您只需在Quick BI中添加StarRocks数据源并成功连接，然后可以在Quick BI上进行数据的分析和展示。...

Lindorm for Cassandra应用实践

云原生多模数据库 Lindorm 基于存储计算分离、多模共享融合的云原生架构，具备弹性伸缩、低成本、简单易用、开放、稳定等优势，适合元数据、日志、账单、标签、消息、报表、维表、结果表、Feed流、用户画像、设备数据、监控数据、传感器...

什么是EMR Serverless Spark

针对数据仓库和BI分析场景，通过SQL编辑器提供低门槛的数据查询与报表开发功能，同时兼容传统数据仓库的使用习惯场景。在人工智能与数据科学领域，集成了支持Python环境管理和交互式机器学习开发的Notebook功能。其设计理念是打造一个统一...

ClickHouse

开源大数据平台E-MapReduce（简称EMR）的ClickHouse提供了开源OLAP分析引擎ClickHouse的云上托管服务。EMR ClickHouse完全兼容开源版本的产品特性，同时提供集群快速部署、集群管理、扩容、缩容和监控告警等云上产品功能，并且在开源的基础...

Celeborn介绍

Apache Celeborn是阿里云开源的中间数据服务，旨在提升大数据计算引擎的性能、稳定性和灵活性。Celeborn设计独立于具体引擎，支持Spark、Flink、MapReduce(MR)和 Tez，并且是目前最流行的Remote Shuffle Service的实现。Celeborn架构 ...

JindoFS实战演示

AI训练加速文档链接视频链接视频发布时间描述 Fluid+JindoFS对OSS上的数据进行训练加速 Fluid+JindoFS对OSS上的数据进行训练加速 2021-07-06 Fluid是一个开源的Kubernetes原生的分布式数据集编排和加速引擎，主要服务于云原生场景下的...

产品形态选型

适用场景 OLAP 多维分析：支持灵活的多维分析与即席查询（Ad Hoc），广泛应用于运营报表、用户画像、指标中台、BI 分析等场景，助力数据驱动决策。实时数据仓库：秒级数据摄入与更新，适用于实时库存监控、订单追踪、用户行为分析、实时风...

通过Kyuubi Token对DLF数据的权限管控

例如，分析师A只能查询业务报表，而数据工程师B可以访问底层的原始数据集。此方案解决多租户环境下的数据权限隔离问题，实现端到端的身份认证与权限管控。实施步骤步骤一：准备环境与RAM用户权限准备基础资源。已创建工作空间，详情请...

Flink

Flink核心是一个流式的数据流执行引擎，其针对数据流的分布式计算提供了数据分布、数据通信以及容错机制等功能。基于流执行引擎，Flink提供了更高抽象层的API以便您编写分布式任务。背景信息 EMR Flink完全兼容开源Flink，相关内容请参见...

什么是EMR Serverless StarRocks

EMR Serverless StarRocks是开源StarRocks在阿里云上的全托管服务，您可以通过其灵活地创建和管理实例以及数据。本文为您介绍StarRocks的核心特性，并详述EMR Serverless StarRocks在此基础之上所引入的诸多增强功能与服务优势。前置概念 ...

StarRocks

具体的业务场景如下所示：OLAP多维分析用户行为分析用户画像、标签分析、圈人高维业务指标报表自助式报表平台业务问题探查分析跨主题业务分析财务报表系统监控分析实时数仓电商大促数据分析教育行业的直播质量分析物流行业的...

功能特性

EMR on ECS 功能集功能功能描述参考文档集群管理创建集群您可以轻松构建和运行Hadoop、Spark、Hive、Presto等开源大数据框架，以进行大规模数据处理和分析等操作。创建集群释放集群在完成EMR集群任务后及时释放集群，可以释放资源...

免费体验Lindorm宽表性能&价格力

背景云原生多模数据库Lindorm面向海量泛时序数据、半结构化数据和非结构化数据提供低成本存储、在线查询和检索、离线分析、AI 推理等一站式数据服务，支持MySQL协议，兼容HBase、Elasticsearch、Hive、Spark、HDFS 等开源标准。...

数据上云工具

MaxCompute平台支持丰富的数据上传和下载工具（其中大部分工具已经在GitHub公开源代码，以开源社区的方式进行维护）。您可以根据实际应用场景，选择合适的工具进行数据的上传和下载。阿里云数加产品 MaxCompute客户端（Tunnel通道系列）...

Tair（企业版）与Redis开源版特性对比

Tair（企业版）Redis开源版内存型持久内存型磁盘型（ESSD）磁盘型（SSD）2.8、4.0及5.0版本 6.0、7.0版本 Redis倚天版基本性能性能基准（以 Redis开源版为基准）300%90%读：40%读：60%一致 120%120%写：30%写：40%单个数据节点的最大...

SSH隧道访问开源组件Web界面

这样，本地服务器上的请求即可访问集群主节点上开源组件的Web界面数据。1、创建SSH隧道打开本地命令行窗口，通过SSH方式连接到集群主节点。您可根据您创建集群时的配置选择密码方式或密钥方式访问。密钥方式访问 ssh-i 密钥文件路径-N-D ...

使用Delta Lake

Delta Lake是一个开源存储框架，旨在数据湖之上构建LakeHouse架构。Delta Lake提供了ACID事务支持、可扩展的元数据处理功能，并能够在现有的数据湖（如OSS、Amazon S3和HDFS）上整合流处理与批处理。此外，Delta Lake还支持多种引擎，如...

JindoCache

大数据分析（Hive/Spark 报表）：减少报表生成时间，优化计算集群成本。湖仓一体：减少请求费用，优化数据目录（catalog）的响应延迟。AI：加速训练等场景，降低AI集群使用成本，提供更全面的能力支持。缓存策略 JindoCache支持数据缓存...

Flink版本调整公告

为了更好地融入开源生态，提供更加开放和多样...您可以通过使用开源Connector便捷地对接各种数据源和下游系统。说明 EMR-5.17.0、EMR-3.51.0版本开始使用Apache Flink 1.17.2版本，版本说明请参见 Apache Flink 1.17.2 Release Announcement。

Doris

Apache Doris是一个高性能、实时的分析型数据库，能够较好的满足报表分析、即席查询、数据湖联邦查询加速等使用场景。本文为您介绍Apache Doris。背景信息关于更多Apache Doris信息，详情请参见 Doris介绍。使用场景数据源经过各种数据...

什么是EMR Workflow

提供与Apache DolphinScheduler兼容的接口和使用体验，支持开源DolphinScheduler和EMR旧版数据开发作业的一键迁移。产品功能 EMR Workflow具有如下功能：支持多种任务类型。例如 SHELL、SPARK、HIVECLI 等多种类型的任务调度。可视化的任务...

冷热分层

监控场景：通常用户只会查看近期的监控，只有在调查问题或者制定报表时才会查询历史数据。例如云监控。账单场景：通常用户只会查询最近几天或者一个月内的账单，不会查询超过一年以上的账单。例如支付宝。物联网场景：通常设备近期上报的...

性能测试

本文介绍 Ganos 时空服务与开源GeoMesa（HBase）、云数据库MongoDB分片集群在处理时空轨迹数据时的性能测试对比。测试环境本次性能测试中需要准备以下测试数据库，具体配置如下表：数据库配置说明云原生多模数据库 Lindorm 宽表引擎（已...

Flink（VVR）作业配置

EMR-3.27.x及之前版本使用Flink社区开源版本，EMR-3.27.x之后版本使用完全兼容开源Flink的企业版（VVR）。本文介绍如何配置Flink（VVR）类型的作业。背景信息 Flink企业版由Apache Flink创始团队官方出品，拥有全球统一商业化品牌。VVR提供...

2025-01-20版本

通过Kyuubi Gateway，以兼容开源Kyuubi的方式提交SQL任务。数据目录支持使用RAM用户（子账号）身份访问DLF。支持访问DLF 2.0 Hive Catalog。资源观测支持观测工作空间、队列的资源消耗情况。运行环境 Spark Submit工具支持通过配置参数-...

应用场景

阿里云EMR凭借弹性扩展的计算集群、多源异构数据融合治理以及实时流批一体处理等卓越能力，已经广泛应用于金融风控、电商精准营销、物联网时序数据处理等多个领域。本文为您介绍EMR在数据湖、数据分析、实时数据流、数据服务四个场景的典型...

应用场景

适用场景 OLAP多维分析用户行为分析用户画像、标签分析、圈人高维业务指标报表自助式报表平台业务问题探查分析跨主题业务分析财务报表系统监控分析实时数仓电商大促数据分析教育行业的直播质量分析物流行业的运单分析金融行业...

数据分析报表

分析报表支持哪些方式导出？支持在数据安全中心 DSC（Data Security Center）控制台，导出 HTML 、Word 或图片格式的报表。具体内容，请参见查看报表。