数据报表开源工具-数据报表开源工具文档介绍内容-移动阿里云

BI工具集成

本章节展示如何将BI工具与大数据平台集成，构建高效的数据可视化解决方案。使用Power BI连接EMR Serverless Spark并进行数据可视化

快速入门

RDS MySQL快速入门 RDS SQL Server快速入门 RDS PostgreSQL快速入门 RDS MariaDB快速入门数据库引擎简介 RDS MySQL MySQL MySQL是全球受欢迎的开源数据库之一，作为开源软件组合LAMP（Linux+Apache+MySQL+Perl/PHP/Python）中的重要一环，...

应用场景

适用场景 OLAP多维分析用户行为分析用户画像、标签分析、圈人高维业务指标报表自助式报表平台业务问题探查分析跨主题业务分析财务报表系统监控分析实时数仓电商大促数据分析教育行业的直播质量分析物流行业的运单分析金融行业...

Flink

Flink核心是一个流式的数据流执行引擎，其针对数据流的分布式计算提供了数据分布、数据通信以及容错机制等功能。基于流执行引擎，Flink提供了更高抽象层的API以便您编写分布式任务。背景信息 EMR Flink完全兼容开源Flink，相关内容请参见...

EMR元数据迁移公告

数据湖元数据DLF是阿里云提供的统一元数据服务，具有高可用、免运维和高性能等优点，兼容Hive Metastore，无缝对接EMR上开源计算引擎，并支持多版本管理和Data Profile功能。另外，DLF还支持数据探索、湖管理和数据权限控制等功能，并与...

SmartData 3.1.x版本简介

功能变更 JindoFS存储优化 JindoFS缓存优化 JindoTable计算优化 JindoManager系统管理 JindoTools工具集 JindoFS生态支持 JindoFS存储优化支持文件的checksum功能，对齐开源HDFS checksum相关接口，支持MD5MD5CRC和COMPOSITE_CRC两种算法...

SmartData（仅对存量用户开放）

SmartData是E-MapReduce（简称EMR）产品的核心自研组件，为EMR各个计算引擎提供统一的存储优化、缓存优化、计算加速优化和多个存储功能扩展，涵盖数据访问、数据治理和数据安全。SmartData组件在EMR产品中的位置如下所示。SmartData组件...

EMR旧版数据开发迁移公告

2022年2月21日21点起，E-MapReduce（简称EMR）数据开发功能停止更新，进入维护状态。如果您还在使用旧版控制台的数据开发功能，请尽快迁移至EMR Worflow。本文为您介绍数据开发模块迁移至EMR Workflow的流程。EMR Workflow是一个全托管的...

产品优势

类别云数据库HBase增强版（Lindorm）HBase开源版核心功能 HBase API 支持支持数据模型支持宽列（HBase API）、表格（SQL-Like API）、队列等多种，对其他模型感兴趣的话，请联系我们。仅支持宽列全局二级索引内置，查询透明、高性能...

查看监控报表

使用限制仅保存最近30天内的报表数据，超出此期限的数据将不再保留。注意事项监控指标中包含了root账号相关的信息，例如每分钟查询数等。root账号是阿里云EMR Serverless StarRocks控制台用于管理集群的专用账号，该账号对客户不可见，...

EMR数据开发停止更新公告

2022年2月21日21点起，E-MapReduce（简称EMR）数据开发功能停止更新，进入维护状态，会影响创建项目、新建和运行作业、工作流、数据开发运维等功能。如果您还在使用数据开发功能，请尽快迁移到DataWorks构建数据开发平台。本文为您介绍数据...

Sqoop使用说明

Sqoop是一款Apache社区的开源软件，支持在Hadoop生态软件和结构化数据集（例如数据库）之间进行高效的批量数据传输。背景信息常见数据传输场景如下：将MySQL数据导入HDFS 将HDFS数据导入MySQL 将Hive数据导入MySQL 将MySQL数据导入Hive 将...

Celeborn介绍

Apache Celeborn是阿里云开源的中间数据服务，旨在提升大数据计算引擎的性能、稳定性和灵活性。Celeborn设计独立于具体引擎，支持Spark、Flink、MapReduce(MR)和 Tez，并且是目前最流行的Remote Shuffle Service的实现。Celeborn架构 ...

Kafka Manager

Kafka Manager是专为Kafka设计的集群管理工具，提供了WebUI界面，允许用户通过图形化界面便捷地管理Kafka集群。本文为您介绍如何访问Kafka Manager的WebUI，并将集群添加至Kafka Manager的WebUI界面。前提条件已创建选择了Kafka服务的...

JindoFS块存储模式

应用场景 E-MapReduce目前提供了三种大数据存储系统，E-MapReduce OssFileSystem、E-MapReduce HDFS和E-MapReduce JindoFS，其中OssFileSystem和JindoFS都是云上存储的解决方案，下表为这三种存储系统和开源OSS各自的特点。特点开源OSS E-...

JindoFS实战演示

AI训练加速文档链接视频链接视频发布时间描述 Fluid+JindoFS对OSS上的数据进行训练加速 Fluid+JindoFS对OSS上的数据进行训练加速 2021-07-06 Fluid是一个开源的Kubernetes原生的分布式数据集编排和加速引擎，主要服务于云原生场景下的...

示例项目使用说明

集群运行开源项目运行示例如下：Spark SparkWordCount：spark-submit-class SparkWordCount examples-1.0-SNAPSHOT-shaded.jar inputPath outputPath numPartition 参数说明如下：参数描述 inputPath 输入数据路径。outputPath 输出路径...

通过Kyuubi Token对DLF数据的权限管控

例如，分析师A只能查询业务报表，而数据工程师B可以访问底层的原始数据集。此方案解决多租户环境下的数据权限隔离问题，实现端到端的身份认证与权限管控。实施步骤步骤一：准备环境与RAM用户权限准备基础资源。已创建工作空间，详情请...

HDFS DiskBalancer介绍

当您的集群因大量的写入和删除，或者由于磁盘更换和扩容等操作，导致数据在节点上的磁盘之间分布不均匀，引起HDFS并发读写性能的下降等问题时，可通过HDFS Diskbalancer将数据均匀地分布在DataNode的所有磁盘上。本文为您介绍HDFS ...

Serverless Spark集成 Notebook

Notebook 促进了数据分析师和数据工程师之间的协作，支持快速原型设计和实验，是探索数据、开发机器学习模型以及进行数据驱动决策的关键工具。EMR Serverless Spark支持通过Notebook进行交互式开发。本文带您快速体验Notebook的创建、运行...

Tair（企业版）与Redis开源版特性对比

本文列出 Tair（企业版）各形态产品与 Redis开源版产品的相关特性对比，为您的产品选型提供相关参考。选型参考类别系列特点适用场景 Tair（企业版）内存型超高性能：采用多线程模型，读写性能达到同规格 Redis开源版实例的3倍，更多...

JindoCache

大数据分析（Hive/Spark 报表）：减少报表生成时间，优化计算集群成本。湖仓一体：减少请求费用，优化数据目录（catalog）的响应延迟。AI：加速训练等场景，降低AI集群使用成本，提供更全面的能力支持。缓存策略 JindoCache支持数据缓存...

SSH隧道访问开源组件Web界面

除了通过EMR控制台提供的链接地址访问开源组件Web界面外，还可通过SSH隧道方式进行安全访问。通过SSH隧道和SOCKS代理，您可在不暴露集群内部网络结构的情况下访问开源组件Web界面。说明开源组件Web界面访问方式选择，请参见查看开源组件 ...

使用Delta Lake

Delta Lake是一个开源存储框架，旨在数据湖之上构建LakeHouse架构。Delta Lake提供了ACID事务支持、可扩展的元数据处理功能，并能够在现有的数据湖（如OSS、Amazon S3和HDFS）上整合流处理与批处理。此外，Delta Lake还支持多种引擎，如...

Flink版本调整公告

为了更好地融入开源生态，提供更加开放和多样...您可以通过使用开源Connector便捷地对接各种数据源和下游系统。说明 EMR-5.17.0、EMR-3.51.0版本开始使用Apache Flink 1.17.2版本，版本说明请参见 Apache Flink 1.17.2 Release Announcement。

什么是EMR Workflow

EMR Workflow是一个全托管的工作流和任务调度服务，100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务，您可以通过可视化的操作界面轻松地管理工作流和任务，高效构建数据湖仓，并为生产任务的稳定运行提供保障。产品优势 ...

冷热分层

监控场景：通常用户只会查看近期的监控，只有在调查问题或者制定报表时才会查询历史数据。例如云监控。账单场景：通常用户只会查询最近几天或者一个月内的账单，不会查询超过一年以上的账单。例如支付宝。物联网场景：通常设备近期上报的...

HBase Replication

说明如果要对大批量复制数据进行验证，可以使用VerifyReplication工具验证，该工具使用详情请参见 Verifying Replicated Data。相关文档开启串行Replication，请参见 Serial Replication。开启同步Replication，请参见 Synchronous ...

任务开发与调度

本章节介绍如何通过多种工具和框架提交和调度大数据任务，支持从交互式开发到自动化调度的全流程任务管理。通过DolphinScheduler提交Spark任务通过Serverless Spark提交PySpark流任务通过spark-submit提交任务通过Apache Airflow提交...

性能测试

本文介绍 Ganos 时空服务与开源GeoMesa（HBase）、云数据库MongoDB分片集群在处理时空轨迹数据时的性能测试对比。测试环境本次性能测试中需要准备以下测试数据库，具体配置如下表：数据库配置说明云原生多模数据库 Lindorm 宽表引擎（已...

Flink（VVR）作业配置

EMR-3.27.x及之前版本使用Flink社区开源版本，EMR-3.27.x之后版本使用完全兼容开源Flink的企业版（VVR）。本文介绍如何配置Flink（VVR）类型的作业。背景信息 Flink企业版由Apache Flink创始团队官方出品，拥有全球统一商业化品牌。VVR提供...

基础工具与操作

本章节提供基础工具的操作指南，帮助用户高效完成数据存储、管理和运维相关任务。在Notebook中使用Hadoop命令操作OSS/OSS-HDFS

使用HBase Shell

创建包含HBase服务的...HBase主要通过命令行工具（HBase Shell）、Java API以及其他一些接口（如REST API和Thrift）来提供数据的增删改查操作。相关文档您可以查看Apache HBase Shell官方文档了解更多信息，详情请参见 Apache HBase官网。

数据分析报表

分析报表支持哪些方式导出？支持在数据安全中心 DSC（Data Security Center）控制台，导出 HTML 、Word 或图片格式的报表。具体内容，请参见查看报表。

OpenLDAP

OpenLDAP是一种开源软件，您可以使用OpenLDAP提供的命令行工具ldapadd、ldapdelete、ldapmodify等来管理用户，使用ldif文件进行用户管理。这种方式需要参考OpenLDAP开源社区的文档来进行操作。开源文档请参见 OpenLDAP。

Shell

与开源Zeppelin相比，E-MapReduce（简称EMR）数据开发集群中的Shell解释器支持在不同EMR集群环境里切换。本文通过示例为您介绍如何在Zeppelin中使用Shell。使用示例运行hadoop命令执行如下命令会显示当前EMR集群根目录下的所有文件，切换...

SSB性能测试说明

场景说明本测试场景中SSB的生成工具中使用SF（scale factor）控制生成数据量的大小，1SF对应1 GB。说明以上数据量仅针对原始数据的数据量，不包括索引等空间占用，因此在准备环境时，您需要预留更多的空间。准备工作您需要准备OLAP查询...

HDFS Balancer

HDFS Balancer工具可以用来分析块的分布情况，并且可以重新分配DataNode中的数据。本文为您介绍如何使用HDFS Balancer工具，以及Balancer的主要调优参数。背景信息 HDFS采用主从架构，其中NameNode管理文件系统的元数据（例如文件名、文件...

查看开源组件 Web 界面

在EMR集群中，为了确保集群安全，Hadoop、Spark和Flink等开源组件的Web界面端口均未对外开放。如果您想直接访问开源组件的Web界面，可根据实际场景选择原生UI地址、Knox代理地址、SSH本地端口转发或 SSH动态端口转发方式进行访问。快速...

数据导入

为了更好地满足各种不同的业务场景，StarRocks支持多种数据模型，StarRocks中存储的数据需要按照特定的模型进行组织。本文为您介绍数据导入的基本概念、原理、系统配置、不同导入方式的适用场景，以及一些最佳实践案例和常见问题。背景信息...