数据报表开源-数据报表开源文档介绍内容-移动阿里云

功能特性

数据库审计提供用户行为发现审计、多维度分析、实时报警和报表功能。用户行为审计支持关联应用层和数据库层的访问操作，您可以在C/S架构和B/S架构中使用应用身份识别功能。支持溯源应用者的身份和行为。多维度线索分析风险和危害线索 ...

Shell

与开源Zeppelin相比，E-MapReduce（简称EMR）数据开发集群中的Shell解释器支持在不同EMR集群环境里切换。本文通过示例为您介绍如何在Zeppelin中使用Shell。使用示例运行hadoop命令执行如下命令会显示当前EMR集群根目录下的所有文件，切换...

Sqoop使用说明

Sqoop是一款Apache社区的开源软件，支持在Hadoop生态软件和结构化数据集（例如数据库）之间进行高效的批量数据传输。背景信息常见数据传输场景如下：将MySQL数据导入HDFS 将HDFS数据导入MySQL 将Hive数据导入MySQL 将MySQL数据导入Hive 将...

查看开源组件 Web 界面

在EMR集群中，为了确保集群安全，Hadoop、Spark和Flink等开源组件的Web界面端口均未对外开放。如果您想直接访问开源组件的Web界面，可根据实际场景选择原生UI地址、Knox代理地址、SSH本地端口转发或 SSH动态端口转发方式进行访问。快速...

Hadoop DistCp介绍

Hadoop DistCp和Jindo DistCp的区别 DistCp类型功能使用场景 Hadoop DistCp 开源Hadoop内置的DistCp工具，用于大型集群间或集群内数据的复制。HDFS到HDFS间的数据复制。Jindo DistCp JindoFS的数据迁移工具，支持OSS、OSS-HDFS服务、兼容...

数据导入

为了更好地满足各种不同的业务场景，StarRocks支持多种数据模型，StarRocks中存储的数据需要按照特定的模型进行组织。本文为您介绍数据导入的基本概念、原理、系统配置、不同导入方式的适用场景，以及一些最佳实践案例和常见问题。背景信息...

使用Power BI连接EMR Serverless Spark并进行数据可视...

Power BI是一个统一、可扩展的自助服务和企业商业智能（BI）平台，支持用户对数据进行建模与可视化分析，并能够创建个性化的报表。本文介绍如何通过Power BI连接EMR Serverless Spark并可视化分析数据。使用限制不支持访问Paimon和Iceberg...

集群自定义报表

查看自定义报表添加自定义报表编辑自定义报表删除自定义报表查看自定义报表在自定义报表页签下，您可以进行自定义报表管理。通过选择报表指定需要查看的自定义报表。添加自定义报表在自定义报表页面，单击添加自定义报表。首次...

Superset（仅对存量用户开放）

使用Superset访问Hive数据库 Superset提供了SQLAlchemy以多种语言支持各种各样的数据库，包括MySQL、Oracle、PostgreSQL和Microsoft SQL Server等关系型数据库，以及Hive、Presto和Druid等大数据查询引擎。这里以E-MapReduce Hadoop集群...

EMR元数据迁移公告

数据湖元数据DLF是阿里云提供的统一元数据服务，具有高可用、免运维和高性能等优点，兼容Hive Metastore，无缝对接EMR上开源计算引擎，并支持多版本管理和Data Profile功能。另外，DLF还支持数据探索、湖管理和数据权限控制等功能，并与...

EMR Serverless Spark商业化公告

产品优势如下：云原生极速计算引擎内置Fusion Engine(Spark Native Engine)，相对开源版本性能提升300%。内置Celeborn（Remote Shuffle Service），支持PB级Shuffle数据，计算资源总成本最高下降30%。开放化的数据湖架构支持计算存储分离...

核心特性

列存只读实例开源与多云 PolarDB-X 在2021年11月份正式全内核开源，通过定期同步商业版本到开源版本（大约3~6个月），从而持续保持开源版本的迭代和功能对齐。在开源生态中，PolarDB-X 提供了配套的轻量化管控、生态工具的适配，可以基于...

EMR数据开发停止更新公告

2022年2月21日21点起，E-MapReduce（简称EMR）数据开发功能停止更新，进入维护状态，会影响创建项目、新建和运行作业、工作流、数据开发运维等功能。如果您还在使用数据开发功能，请尽快迁移到DataWorks构建数据开发平台。本文为您介绍数据...

操作指南

您可以在E-Mapreduce控制台创建和管理集群或实例等操作。形态文档 EMR on ECS 创建集群克隆集群新增服务管理配置项 ...数据开发与查询数据导入快速实现向量检索 EMR Serverless Spark SQL开发 Notebook开发 Application开发管理工作流

实践教程

EMR on ECS 手工缩容节点组更换集群损坏的本地盘为集群配置弹性伸缩规则 EMR Serverless StarRocks 存算分离模式下借助本地缓存提升查询性能基于DataFlow集群的Flink服务使用CTAS语句同步MySQL数据至StarRocks 基于实时计算Flink使用...

数据湖存储集成

本章节重点介绍如何使用主流数据湖格式（如Paimon、Hudi、Iceberg）进行数据存储与管理，并结合流批一体技术实现高效的数据处理。使用Paimon 使用Hudi 使用Iceberg 使用Delta Lake 使用DLF 基于Flink、EMR Serverless Spark与Paimon构建流...

数据存储与访问

本章节介绍如何通过多种方式读写不同的数据存储系统，支持结构化、半结构化和非结构化数据的高效存储与访问。涵盖主流大数据存储引擎的集成，满足多样化的业务需求。读写Doris 读写StarRocks 读写MaxCompute 读写HBase 读写MongoDB 读写...

BI工具集成

本章节展示如何将BI工具与大数据平台集成，构建高效的数据可视化解决方案。使用Power BI连接EMR Serverless Spark并进行数据可视化

应用场景

该方案优势如下：全托管免运维弹性扩展能力开放数据湖架构一站式的数据开发平台数据查询与分析场景在传统数据平台下，数据仓库工程师和数据分析师通常面临两个不同的环境，甚至使用不同的引擎和语法，导致数据指标和算子行为存在差异...

OpenLDAP

OpenLDAP是LDAP协议（Lightweight Directory Access Protocol）的开源实现，在EMR集群中主要提供用户管理和身份认证的功能。服务集成OpenLDAP 在EMR集群中，Knox服务默认与OpenLDAP服务对接。当您通过EMR控制台的访问链接与端口功能访问...

数据导入

本文为您介绍Doris数据导入支持的数据源、支持的数据格式以及特性。支持的数据源 Doris提供多种数据导入方案，可以针对不同的数据源选择不同的数据导入方式。Stream Load Broker Load Insert Into Routine Load Spark Load JSON格式导入 ...

查询外部数据

本文介绍如何通过External Catalog查询外部数据。External Catalog方便您轻松访问并查询存储在各类外部源的数据，无需创建外部表。前提条件已创建不同类型的External Catalog。操作步骤连接StarRocks实例，详情请参见连接实例。（可选）...

Zookeeper

数据组织 ZooKeeper的数据组织方式与标准文件系统类似，组织成类似文件树的结构，在ZooKeeper中使用znode（ZooKeeper node）来描述文件，与标准文件系统不同的是，znode并不区分目录或者文件的概念，每个znode都可以存储数据。ZooKeeper...

Default Catalog

StarRocks 2.3及以上版本提供了Internal Catalog，用于管理StarRocks的内部数据。每个StarRocks集群都有且只有一个Internal Catalog，名为 default_catalog。StarRocks暂不支持修改Internal Catalog的名称，也不支持创建新的Internal ...

EMR Workbench

阿里云EMR Workbench是一个综合性的大数据分析和开发环境，作为阿里云E-MapReduce的一部分，它提供了EMR Notebook和EMR Workflow两个核心功能。通过EMR Workbench，您可以轻松进行数据开发，以及交互式数据分析，并设计复杂的数据处理工作...

连接外部元数据

本章节介绍如何连接外部元数据服务，确保数据湖和数据仓库中的元数据一致性。连接外部Hive Metastore Service

Spark

Spark是一个通用的大数据分析引擎，具有高性能、易用性和普遍性等特点。架构 Spark架构如下图所示，基于Spark Core构建了Spark SQL、Spark Streaming、MLlib和Graphx四个主要编程库，分别用于离线ETL（Extract-Transform-Load）、在线数据...

内表数据源

本文为您介绍什么是内表数据源（Default Catalog），以及如何使用Default Catalog查询StarRocks内部数据。Default Catalog StarRocks 2.3及以上版本提供了Internal Catalog（内部数据目录），用于管理StarRocks的内部数据。每个StarRocks...

数据加密

阿里云EMR on ECS支持数据加密功能，可有效降低数据在云端的潜在安全风险。同时支持数据备份与恢复，避免数据丢失。OSS数据加密 OSS（Object Storage Service）是阿里云提供的一种高效、安全、低成本且高可靠的云存储服务。该服务采用基于...

会话管理

Spark Thrift Server会话：Spark Thrift Server是Apache Spark提供的一种服务，支持通过JDBC或ODBC连接并执行SQL查询，从而便捷地将Spark环境与现有的商业智能（BI）工具、数据可视化工具及其他数据分析工具集成。相关文档管理SQL会话 ...

开启数据盘加密

加密数据盘后，数据盘上的动态数据传输以及静态数据都会被加密。如果您的业务存在安全合规要求，则可以使用该功能。您无需自建和维护密钥管理基础设施，就能保护数据的隐私性和自主性，为业务数据提供安全边界。背景信息数据盘加密的详细...

Kudu

使用场景典型的应用场景如下：近实时计算场景时间序列数据的场景预测建模与存量数据共存通常生产环境中会有大量的存量数据，数据可能存储在HDFS、RDBMS或Kudu中。如果您只是想访问和查询这些存量数据，可以使用Impala访问和查询，而...

DataDisk

80 PerformanceLevel string 创建 ESSD 云盘作为数据盘使用时，设置云盘的性能等级。取值范围：PL0：单盘最高随机读写 IOPS 1 万。PL1：单盘最高随机读写 IOPS 5 万。PL2：单盘最高随机读写 IOPS 10 万。PL3：单盘最高随机读写 IOPS 100 万...

扩容磁盘

当E-MapReduce集群的数据存储空间不足时，您可以根据本文进行磁盘（数据盘）扩容。本文为您介绍如何对数据盘进行扩容。前提条件已在E-MapReduce控制台创建集群，详情请参见创建集群。使用限制 E-MapReduce控制台仅支持数据盘扩容操作，不...

ClusterSummary

取值范围：DATALAKE：新版数据湖。OLAP：数据分析。DATAFLOW：实时数据流。DATASERVING：数据服务。DATALAKE ClusterState string 集群状态。取值范围：STARTING：启动中。START_FAILED：启动失败。BOOTSTRAPPING：引导操作初始化。RUNNING...

Hudi

Apache Hudi是一种数据湖的存储格式，在Hadoop文件系统之上提供了更新数据和删除数据的能力以及消费变化数据的能力。Hudi表类型 Hudi支持如下两种表类型：Copy On Write 使用Parquet格式存储数据。Copy On Write表的更新操作需要通过重写...

基本概念

本文介绍EMR Serverless StarRocks产品中涉及的一些基本名词...EMR StarRocks Manager EMR StarRocks Manager是阿里云EMR团队针对Serverless StarRocks实例提供的数据管理控制台，提供对实例内数据的管理、诊断与分析、安全权限配置等能力。

Serverless Spark集成 Notebook

Notebook 促进了数据分析师和数据工程师之间的协作，支持快速原型设计和实验，是探索数据、开发机器学习模型以及进行数据驱动决策的关键工具。EMR Serverless Spark支持通过Notebook进行交互式开发。本文带您快速体验Notebook的创建、运行...

TaskInstance

w-d2d82aa09151*taskBizId string 数据开发任务 ID。TSK-d87*taskStatus string 任务实例状态。Running bizId string 目录业务 ID。w-d8*fenixRunId string 任务运行 ID。jr-93d98d2f7061*gmtCreated string 创建时间。2024-09-05T02:03:19...

数据分析

本文为您介绍什么是Catalog（数据目录），以及如何使用Catalog管理和查询内外部数据。基本概念内部数据：保存在StarRocks中的数据。外部数据：保存在外部数据源（例如Apache Hive、Apache Iceberg和Apache Hudi）中的数据。Catalog ...